<b>24.88% точности: агенты всё ещё не понимают, какие свои шаги были лишними</b>
Авторы статьи предложили новое направление — детекцию избыточных шагов в траекториях агента и выпустили RedundancyBench. В бенчмарке каждый шаг размечен по вкладу в выполнение задачи. Из трёх протестированных подходов лучший показал лишь 24.88% качества, а некоторые результаты оказались хуже случайного угадывания.
Для команд, которые строят SDR-агентов, lead-scoring или многошаговые CRM-воркфлоу, это неприятная цифра. Агент может делать дополнительные вызовы моделей и инструментов, расходовать токены и увеличивать latency, но автоматически определить, какие шаги реально влияют на outcome, пока получается слабо.
Завтра это можно использовать как аудит собственных агент-логов: если цепочка стабильно делает 10–15 шагов, не факт, что все они нужны. RedundancyBench выглядит как полезная отправная точка для оценки таких потерь в production-пайплайнах.
Сколько лишних шагов сейчас живёт в ваших агентных сценариях — кто-нибудь уже измерял?
Agentic Marketing Lab
@agentic_marketing_lab
<b>24.88% точности: агенты всё ещё не понимают, какие свои шаги были лишними</b>
Источники:
Этот пост опубликован в Telegram-канале Agentic Marketing Lab. Подписаться можно по ссылке: @agentic_marketing_lab.