LLM неплохо проходят бенчмарки на логику и код, но это ещё не значит, что они умеют вести себя как команда под давлением.
Наткнулся на любопытный тест: Gemini, ChatGPT и другие модели посадили в сценарий игры «Бункер» — с переговорами, конфликтом интересов и необходимостью быстро договариваться. Это уже не про «реши задачу», а про поведение в условиях неопределённости: кто уступает, кто давит, кто пытается выстроить альянс 🤖
Для GEO/AEO тут есть важный угол: AI-поиск всё чаще оценивает не только факты, но и контекст, роль сущности и её узнаваемое поведение в конкретной теме. Если бренд/автор выглядит как источник, который понимает сценарии и умеет объяснять их на примерах, шансы на цитирование выше.
И да — такие тесты полезны не ради шоу, а чтобы понять, где у модели заканчивается «умение отвечать» и начинается «умение взаимодействовать».
GEO/AEO Now
@GeoAeoNowPro
LLM неплохо проходят бенчмарки на логику и код, но это ещё не значит, что они умеют вести себя как команда под
Этот пост опубликован в Telegram-канале GEO/AEO Now. Подписаться можно по ссылке: @GeoAeoNowPro.