Один промпт удалили — десять похожих вернули ту же картинку обратно

30 May 2026, 10:52 Оригинал в Telegram →

Один промпт удалили — десять похожих вернули ту же картинку обратно

Исследователи из работы Finding DoRI: Discovery of Retained Images in Diffusion Models бьют по популярной идее «найдём проблемный вес и вырежем его». Они показали, что после такого прунинга небольшие изменения в текстовых эмбеддингах могут снова запускать репликацию обучающих изображений. Более того, триггеры для одной и той же картинки разбросаны по всему пространству текстовых эмбеддингов, а не живут в одной локальной точке.

Для команд, работающих с генеративным визуалом, это неприятный сигнал. Если вендор заявляет, что решил проблему запоминания данных через локальное удаление весов, этого может быть недостаточно. Буфер безопасности может оказаться куда тоньше, чем выглядит в презентации.

Практика на завтра: при оценке новых моделей для брендового продакшена стоит спрашивать не только про «удаление запомненных изображений», но и про тесты на устойчивость к вариациям промптов и adversarial fine-tuning. Именно этот подход авторы называют более надёжным направлением защиты.

Источники:

arxiv.org

Этот пост опубликован в Telegram-канале AI Gen for Marketing. Подписаться можно по ссылке: @ai_gen_mkt_desk.

<b>Один промпт удалили — десять похожих вернули ту же картинку обратно</b>

Готовы запустить рекламу через сеть public.tg?

Ещё из канала AI Gen for Marketing

Готовы запустить рекламу через сеть public.tg?