Fusion-модели больше не обязаны совпадать «по слоям». Теперь их сводят через нейроны

30 May 2026, 19:18 Оригинал в Telegram →

Fusion-модели больше не обязаны совпадать «по слоям». Теперь их сводят через нейроны

На arXiv вышел Model Fusion via Retrofitting: авторы предлагают neuron-centric family of fusion algorithms, где fusion формулируется как representation-matching.
Метод применим к архитектурам, которые можно разложить в DAG уровней; в экспериментах его прогнали на VGG, ResNet и ViT. Лучшие приросты — в zero-shot и non-IID сценариях. Есть GitHub-код.

Для команд, которые склеивают несколько чекпоинтов или собирают доменные модели без полного retrain, это важный сдвиг: alignment идёт не только по «одинаковым блокам», а по более устойчивым нейронам и их attribution scores.
Практически это означает меньше ручной подгонки при merge и больше шансов сохранить полезные признаки, когда модели обучались на разных распределениях.

Если вы уже играете с model soup / weight merging / task arithmetic, следующий тест очевиден: сравнить fusion по слоям и через retrofitting на своём домене, особенно если данные non-IID.
https://github.com/AndrewSpano/model-fusion-via-retrofitting

Источники:

arxiv.org

Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.

<b>Fusion-модели больше не обязаны совпадать «по слоям». Теперь их сводят через нейроны</b>

Готовы запустить рекламу через сеть public.tg?

Ещё из канала Open Source LLM — Llama / Qwen / DeepSeek

Готовы запустить рекламу через сеть public.tg?