<b>Qwen2.5-1B: +51% без новых данных — новый след в гонке LLM-персонализации</b>
В arXiv вышла работа про MIPO: метод собирает preference-пары из «правильного» ответа на исходный prompt и «негативного» ответа на случайный, unrelated prompt. Дальше это учится через DPO.
Авторы пишут, что такая схема максимизирует pointwise mutual information между prompt и response под базовой LLM. На Llama и Qwen instruct-моделях 1–7B они получили +3–16% к персонализации против prompting-бейзлайнов, отдельно заявлен +51% для Qwen2.5-1B-Instruct.
Для CPA-команд с локальными LLM это не про «ещё один промпт». Завтра можно проверить на своих связках: взять старые промпты под креативы/лендинги/FAQ, собрать контрастные пары и сравнить DPO против обычного prompting. Верифицируемые задачи тоже заявлены: math и multiple-choice QA дали +1–20% без внешней разметки.
Что осталось без ответа: насколько прирост держится на грязных продовых промптах, где пользовательский интент часто
<b>Qwen2.5-1B: +51% без новых данных — новый след в гонке LLM-персонализации</b>
Источники:
Этот пост опубликован в Telegram-канале Афф Скандал — громкие истории и расследования CPA-индустрии. Подписаться можно по ссылке: @LifeScandal.