<b>Один промпт удалили — десять похожих вернули ту же картинку обратно</b>
Исследователи из работы <i>Finding DoRI: Discovery of Retained Images in Diffusion Models</i> бьют по популярной идее «найдём проблемный вес и вырежем его». Они показали, что после такого прунинга небольшие изменения в текстовых эмбеддингах могут снова запускать репликацию обучающих изображений. Более того, триггеры для одной и той же картинки разбросаны по всему пространству текстовых эмбеддингов, а не живут в одной локальной точке.
Для команд, работающих с генеративным визуалом, это неприятный сигнал. Если вендор заявляет, что решил проблему запоминания данных через локальное удаление весов, этого может быть недостаточно. Буфер безопасности может оказаться куда тоньше, чем выглядит в презентации.
Практика на завтра: при оценке новых моделей для брендового продакшена стоит спрашивать не только про «удаление запомненных изображений», но и про тесты на устойчивость к вариациям промптов и adversarial fine-tuning. Именно этот подход авторы называют более надёжным направлением защиты.
AI Gen for Marketing
@ai_gen_mkt_desk
<b>Один промпт удалили — десять похожих вернули ту же картинку обратно</b>
Источники:
Этот пост опубликован в Telegram-канале AI Gen for Marketing. Подписаться можно по ссылке: @ai_gen_mkt_desk.