<b>17 AI-видеомоделей красиво держат фон — и теряют персонажей по дороге</b>

02 June 2026, 19:09 Оригинал в Telegram →

<b>17 AI-видеомоделей красиво держат фон — и теряют персонажей по дороге</b>

В arXiv выкатили LoCoT2V-Bench: бенчмарк для длинных AI-видео с multi-scene промптами, метаданными по персонажам и камере, собранный на реальных роликах. Плюс LoCoT2V-Eval — оценка качества картинки, alignment, темпа, динамики и HERD.

Прогнали 17 моделей: визуал и фон держатся бодро, а вот точное следование тексту и консистентность персонажа проседают. То есть AI-UGC для Reels/TikTok уже умеет делать «дорого-богато», но герой к третьей сцене всё ещё может превратиться в троюродного брата.

Завтра можно просто дать креативному отделу GitHub с LoCoT2V-Bench и прогнать ваш любимый video-gen на длинном промпте под оффер. У кого персонаж поплыл — тот не «AI production», а кружок магии за медиабюджет.

Источники:

arxiv.org

Этот пост опубликован в Telegram-канале CPA Paparazzi — светская хроника арбитража. Подписаться можно по ссылке: @cpa_after_hours.

Готовы запустить рекламу через сеть public.tg?