LLM научили проходить тесты, считать, писать код и уверенно отвечать на вопросы. Но в рынке это всё ещё не главная проверка. Настоящий стресс-тест — не бенчмарк, а ситуация, где нужно договориться, не развалить коалицию и не поссориться с тем, кто вчера был союзником.
И вот здесь особенно интересно смотреть на Gemini, ChatGPT и остальных в условном «Бункере»: как они торгуются, кого поддерживают, где начинают врать ради выгоды, а где внезапно включают стратегию. Это уже не про интеллект в вакууме, а про поведение в системе с дефицитом, конфликтом и неопределённостью — то есть почти как в агентских тендерах 😏
Для рынка это важный сдвиг: выигрывать будут не только те, кто «умнее» по метрикам, а те, кто лучше работает в живой среде — с переговорами, контекстом и человеческой психикой. И да, у некоторых моделей с этим всё ещё заметно хуже, чем у среднего account director после третьего раунда правок.
Agency Digest
@AgencyDigestHub
LLM научили проходить тесты, считать, писать код и уверенно отвечать на вопросы. Но в рынке это всё ещё не гла
Этот пост опубликован в Telegram-канале Agency Digest. Подписаться можно по ссылке: @AgencyDigestHub.