<b>+0.115 nats на ставку: LLM-ансамбль выглядит умным, пока его не сложили вместе</b>
В arXiv-работе разобрали 1 876 ensemble-клик на панели из четырёх mid-tier LLM. Метрика eps* была выше нуля на 33–94% клик: локально ответы связные, а в композиции система уезжает от joint coherent polytope.
Для команд, которые гоняют LLM через pre-check крео, policy-разметку или внутренний скоринг аккаунтов, неприятный момент в другом: retrieval, partition-aware prompting и aggregator-LLM в статье не спасли — каждый вариант либо провалился, либо дал регресс.
Завтра можно сделать простую вещь: не верить одному «агрегатору поверх моделей», а логировать расхождения между компонентами и отдельно считать остаточную ошибку на связанных решениях. Иначе кабинет может получить не умного ревьюера, а уверенную кашу в красивом JSON.
<b>+0.115 nats на ставку: LLM-ансамбль выглядит умным, пока его не сложили вместе</b>
Источники:
Этот пост опубликован в Telegram-канале FB до банов — Facebook Ads, банхамеры и фарм аккаунтов. Подписаться можно по ссылке: @True_Aff.