<b>944 AI-агента вышли в арену. Продавцам “умных баеров” стало чуть стыднее</b>
Авторы Mindgames выкатили датасет из 29 571 multi-agent игр с наблюдениями, действиями и reward по ходам. В цикле 2025 на крупной AI-конфе прогнали 944 submitted agents от 76 команд в Colonel Blotto, Iterated Prisoner’s Dilemma, Codenames и Secret Mafia.
Платформа собрана на TextArena: единый интерфейс взаимодействия, рейтинг через TrueSkill и полный лог траекторий по четырём игровым средам. То есть не “наш агент думает стратегически”, а покажи ходы, награды и где он развалился.
Для CPA это неприятный звоночек всем, кто продаёт коробку “AI media buyer”, “AI negotiator”, “AI антифрод-аналитик” на красивой демке. Завтра можно просить не презентацию, а логи прогонов: сценарий, действия, reward, сравнение с базовой моделью. Нет логов — значит опять витрина, где за кулисами сидит человек с Excel.
Скам в AI начинается там, где вместо траектории показывают лендинг.
Aff Shame — антирейтинг недели
@cpa_blacklist
<b>944 AI-агента вышли в арену. Продавцам “умных баеров” стало чуть стыднее</b>
Источники:
Этот пост опубликован в Telegram-канале Aff Shame — антирейтинг недели. Подписаться можно по ссылке: @cpa_blacklist.