Афф Скандал — громкие истории и расследования CPA-индустрии

<b>Qwen2.5-1B: +51% без новых данных — новый след в гонке LLM-персонализации</b>

<b>Qwen2.5-1B: +51% без новых данных — новый след в гонке LLM-персонализации</b>

В arXiv вышла работа про MIPO: метод собирает preference-пары из «правильного» ответа на исходный prompt и «негативного» ответа на случайный, unrelated prompt. Дальше это учится через DPO.

Авторы пишут, что такая схема максимизирует pointwise mutual information между prompt и response под базовой LLM. На Llama и Qwen instruct-моделях 1–7B они получили +3–16% к персонализации против prompting-бейзлайнов, отдельно заявлен +51% для Qwen2.5-1B-Instruct.

Для CPA-команд с локальными LLM это не про «ещё один промпт». Завтра можно проверить на своих связках: взять старые промпты под креативы/лендинги/FAQ, собрать контрастные пары и сравнить DPO против обычного prompting. Верифицируемые задачи тоже заявлены: math и multiple-choice QA дали +1–20% без внешней разметки.

Что осталось без ответа: насколько прирост держится на грязных продовых промптах, где пользовательский интент часто
Источники:
Этот пост опубликован в Telegram-канале Афф Скандал — громкие истории и расследования CPA-индустрии. Подписаться можно по ссылке: @LifeScandal.
start

Готовы запустить рекламу через сеть public.tg?

Новый оффер, продукт, GEO, кейс, событие или партнёрский запуск — соберём маршрут под задачу и отдадим медиаплан.

Telegram для медиаплана: @dumay. Быстрый тест: $20 за канал, $99 за пакет по сети.