LLM любят продавать как «умные». Но на живых переговорах многие из них сыпятся.
Обычные бенчмарки меряют математику, код и текст. А вот как модель ведёт себя в конфликте, умеет ли торговаться, держит ли линию и не срывается ли в хаос — это уже почти никто не проверяет.
Для этого и устроили игру в «Бункер» для Gemini, ChatGPT и других. Логика там вторична: важнее психология, адаптация, умение выстроить коалицию и не развалить позицию под давлением. 🤖
И вот тут начинается неприятное: одна модель может блестяще объяснять, почему она права, но проигрывать в реальной динамике группы. Другая — цепляться за правила и ломать переговоры. Третья — слишком быстро уступать, теряя контроль над сценарием.
Для брендов и агентств вывод простой: если вы оцениваете AI только по «умным ответам», вы покупаете витрину. Нужны тесты на поведение: конфликт, дедлайн, смена вводных, работа в команде. Иначе результат будет красивый на демо — и слабый в бою.
Influencer Brief
@InfluencerBrief
LLM любят продавать как «умные». Но на живых переговорах многие из них сыпятся.
Этот пост опубликован в Telegram-канале Influencer Brief. Подписаться можно по ссылке: @InfluencerBrief.