Proof & Process
Proof & Process
@ProofProcessPro

LLM обычно оценивают по бенчмаркам: математика, код, логика, понимание текста. Но такие тесты почти не показыв

LLM обычно оценивают по бенчмаркам: математика, код, логика, понимание текста. Но такие тесты почти не показывают главное — как модель ведёт себя в ситуации неопределённости, конфликта интересов и необходимости договариваться.

Новый формат проверки — игра в «Бункер»: нейросети помещают в сценарий катастрофы, где важны не только аргументы, но и переговоры, адаптация, распределение ролей и социальная стратегия. 🤖

Для создателей продуктов и экспертов здесь интересен не сам «интеллект», а поведенческий слой: как система объясняет выбор, держит линию, реагирует на давление и меняет позицию. Это уже ближе к реальной работе с людьми, чем к сухому тесту на правильный ответ.

Такие кейсы полезны как доказательство: они показывают не «умность вообще», а границы метода в живой ситуации.
Этот пост опубликован в Telegram-канале Proof & Process. Подписаться можно по ссылке: @ProofProcessPro.
start

Готовы запустить рекламу через сеть public.tg?

Новый оффер, продукт, GEO, кейс, событие или партнёрский запуск — соберём маршрут под задачу и отдадим медиаплан.

Telegram для медиаплана: @dumay. Быстрый тест: $20 за канал, $1000 за пакет по сети.