<b>RTG больше не магическая цифра. Q-ALIGN DT пришёл чинить хаос</b>
В статье предложили Q-ALIGN DT: фреймворк, который согласует Q-value выходной политики с входным return-to-go.
Авторы показывают на D4RL benchmark: выше controllability, выше performance.
Фокус не в красивом числе RTG.
Q-ALIGN DT берёт Q function, даёт dense guidance для Conditioned Sequence Models и добивает всё RTG-perturbation technique.
А потом самое вкусное: при достаточно высоком RTG модель может выдать near-optimal policy.
Для всех, кто завтра трогает агентов, автооптимизацию или свои “умные” пайплайны: проверьте одну больную вещь.
Если цель выше — траектория реально становится лучше?
Или модель просто красиво кивает и едет в стену...
Вот там обычно и начинается сериал.
Drama CPA — сериал индустрии
@drama_cpa_pub
<b>RTG больше не магическая цифра. Q-ALIGN DT пришёл чинить хаос</b>
Источники:
Этот пост опубликован в Telegram-канале Drama CPA — сериал индустрии. Подписаться можно по ссылке: @drama_cpa_pub.