<b>17 AI-видеомоделей красиво держат фон — и теряют персонажей по дороге</b>
В arXiv выкатили LoCoT2V-Bench: бенчмарк для длинных AI-видео с multi-scene промптами, метаданными по персонажам и камере, собранный на реальных роликах. Плюс LoCoT2V-Eval — оценка качества картинки, alignment, темпа, динамики и HERD.
Прогнали 17 моделей: визуал и фон держатся бодро, а вот точное следование тексту и консистентность персонажа проседают. То есть AI-UGC для Reels/TikTok уже умеет делать «дорого-богато», но герой к третьей сцене всё ещё может превратиться в троюродного брата.
Завтра можно просто дать креативному отделу GitHub с LoCoT2V-Bench и прогнать ваш любимый video-gen на длинном промпте под оффер. У кого персонаж поплыл — тот не «AI production», а кружок магии за медиабюджет.
CPA Paparazzi — светская хроника арбитража
@cpa_after_hours
<b>17 AI-видеомоделей красиво держат фон — и теряют персонажей по дороге</b>
Источники:
Этот пост опубликован в Telegram-канале CPA Paparazzi — светская хроника арбитража. Подписаться можно по ссылке: @cpa_after_hours.