LLM обычно оценивают по бенчмаркам: математика, код, логика, понимание текста. Но такие тесты почти не показывают главное — как модель ведёт себя в ситуации неопределённости, конфликта интересов и необходимости договариваться.
Новый формат проверки — игра в «Бункер»: нейросети помещают в сценарий катастрофы, где важны не только аргументы, но и переговоры, адаптация, распределение ролей и социальная стратегия. 🤖
Для создателей продуктов и экспертов здесь интересен не сам «интеллект», а поведенческий слой: как система объясняет выбор, держит линию, реагирует на давление и меняет позицию. Это уже ближе к реальной работе с людьми, чем к сухому тесту на правильный ответ.
Такие кейсы полезны как доказательство: они показывают не «умность вообще», а границы метода в живой ситуации.
Proof & Process
@ProofProcessPro
LLM обычно оценивают по бенчмаркам: математика, код, логика, понимание текста. Но такие тесты почти не показыв
Этот пост опубликован в Telegram-канале Proof & Process. Подписаться можно по ссылке: @ProofProcessPro.