<b>Qwen2.5-1B: +51% без новых данных — новый след в гонке LLM-персонализации</b>

30 May 2026, 15:00 Оригинал в Telegram →

<b>Qwen2.5-1B: +51% без новых данных — новый след в гонке LLM-персонализации</b>

В arXiv вышла работа про MIPO: метод собирает preference-пары из «правильного» ответа на исходный prompt и «негативного» ответа на случайный, unrelated prompt. Дальше это учится через DPO.

Авторы пишут, что такая схема максимизирует pointwise mutual information между prompt и response под базовой LLM. На Llama и Qwen instruct-моделях 1–7B они получили +3–16% к персонализации против prompting-бейзлайнов, отдельно заявлен +51% для Qwen2.5-1B-Instruct.

Для CPA-команд с локальными LLM это не про «ещё один промпт». Завтра можно проверить на своих связках: взять старые промпты под креативы/лендинги/FAQ, собрать контрастные пары и сравнить DPO против обычного prompting. Верифицируемые задачи тоже заявлены: math и multiple-choice QA дали +1–20% без внешней разметки.

Что осталось без ответа: насколько прирост держится на грязных продовых промптах, где пользовательский интент часто

Источники:

arxiv.org

Этот пост опубликован в Telegram-канале Афф Скандал — громкие истории и расследования CPA-индустрии. Подписаться можно по ссылке: @LifeScandal.

Готовы запустить рекламу через сеть public.tg?