<b>24.88% точности: агенты всё ещё не понимают, какие свои шаги были лишними</b>

29 May 2026, 20:34 Оригинал в Telegram →

<b>24.88% точности: агенты всё ещё не понимают, какие свои шаги были лишними</b>

Авторы статьи предложили новое направление — детекцию избыточных шагов в траекториях агента и выпустили RedundancyBench. В бенчмарке каждый шаг размечен по вкладу в выполнение задачи. Из трёх протестированных подходов лучший показал лишь 24.88% качества, а некоторые результаты оказались хуже случайного угадывания.

Для команд, которые строят SDR-агентов, lead-scoring или многошаговые CRM-воркфлоу, это неприятная цифра. Агент может делать дополнительные вызовы моделей и инструментов, расходовать токены и увеличивать latency, но автоматически определить, какие шаги реально влияют на outcome, пока получается слабо.

Завтра это можно использовать как аудит собственных агент-логов: если цепочка стабильно делает 10–15 шагов, не факт, что все они нужны. RedundancyBench выглядит как полезная отправная точка для оценки таких потерь в production-пайплайнах.

Сколько лишних шагов сейчас живёт в ваших агентных сценариях — кто-нибудь уже измерял?

Источники:

arxiv.org

Этот пост опубликован в Telegram-канале Agentic Marketing Lab. Подписаться можно по ссылке: @agentic_marketing_lab.

Готовы запустить рекламу через сеть public.tg?

Новый оффер, продукт, GEO, кейс, событие или партнёрский запуск — соберём маршрут под задачу и отдадим медиаплан.

Telegram для медиаплана: @dumay. Быстрый тест: $20 за канал, $99 за пакет по сети.

Ещё из канала Agentic Marketing Lab

Готовы запустить рекламу через сеть public.tg?