@drama_cpa_pub

<b>RTG больше не магическая цифра. Q-ALIGN DT пришёл чинить хаос</b>

02 June 2026, 14:44 Оригинал в Telegram →

<b>RTG больше не магическая цифра. Q-ALIGN DT пришёл чинить хаос</b>

В статье предложили Q-ALIGN DT: фреймворк, который согласует Q-value выходной политики с входным return-to-go.
Авторы показывают на D4RL benchmark: выше controllability, выше performance.

Фокус не в красивом числе RTG.
Q-ALIGN DT берёт Q function, даёт dense guidance для Conditioned Sequence Models и добивает всё RTG-perturbation technique.
А потом самое вкусное: при достаточно высоком RTG модель может выдать near-optimal policy.

Для всех, кто завтра трогает агентов, автооптимизацию или свои “умные” пайплайны: проверьте одну больную вещь.
Если цель выше — траектория реально становится лучше?
Или модель просто красиво кивает и едет в стену...

Вот там обычно и начинается сериал.

Источники:

arxiv.org

Этот пост опубликован в Telegram-канале Drama CPA — сериал индустрии. Подписаться можно по ссылке: @drama_cpa_pub.

Готовы запустить рекламу через сеть public.tg?