LLM умеют решать задачки на код и математику, но в реальной жизни часто ломаются там, где нужен не ответ, а координация.
Интересный тест — не бенчмарк, а «Бункер»: модель попадает в сценарий катастрофы и должна выжить в группе. Тут проверяется не только логика, но и переговоры, терпение, стратегия и умение менять позицию под контекст.
Что видно на практике:
- модели быстро генерят аргументы, но часто переоценивают свою правоту;
- часть из них неплохо держит линию переговоров, но слабо читает намерения других;
- некоторые начинают «социально оптимизировать» — давить, манипулировать или уходить в слишком длинные объяснения;
- лучшие результаты обычно у тех, кто умеет балансировать: кратко, уверенно, без лишней агрессии 🤖
Для нас это полезный сигнал: LLM — это не только генератор текста, но и агент, которого можно тестировать на поведение в многозадачных, конфликтных и неопределённых сценариях.
Если строите AI-ассистента, проверьте не только качество ответа, но и то, как он ведёт себя под стрессом и в диалоге.
DevTools Radar
@DevToolsRadarPro
LLM умеют решать задачки на код и математику, но в реальной жизни часто ломаются там, где нужен не ответ, а ко
Этот пост опубликован в Telegram-канале DevTools Radar. Подписаться можно по ссылке: @DevToolsRadarPro.