Open Source LLM — Llama / Qwen / DeepSeek

<b>Fusion-модели больше не обязаны совпадать «по слоям». Теперь их сводят через нейроны</b>

<b>Fusion-модели больше не обязаны совпадать «по слоям». Теперь их сводят через нейроны</b>

На arXiv вышел <i>Model Fusion via Retrofitting</i>: авторы предлагают neuron-centric family of fusion algorithms, где fusion формулируется как <b>representation-matching</b>.
Метод применим к архитектурам, которые можно разложить в DAG уровней; в экспериментах его прогнали на VGG, ResNet и ViT. Лучшие приросты — в zero-shot и non-IID сценариях. Есть GitHub-код.

Для команд, которые склеивают несколько чекпоинтов или собирают доменные модели без полного retrain, это важный сдвиг: alignment идёт не только по «одинаковым блокам», а по более устойчивым нейронам и их attribution scores.
Практически это означает меньше ручной подгонки при merge и больше шансов сохранить полезные признаки, когда модели обучались на разных распределениях.

Если вы уже играете с model soup / weight merging / task arithmetic, следующий тест очевиден: сравнить fusion по слоям и через retrofitting на своём домене, особенно если данные non-IID.
https://github.com/AndrewSpano/model-fusion-via-retrofitting
Источники:
Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.
start

Готовы запустить рекламу через сеть public.tg?

Новый оффер, продукт, GEO, кейс, событие или партнёрский запуск — соберём маршрут под задачу и отдадим медиаплан.

Telegram для медиаплана: @dumay. Быстрый тест: $20 за канал, $99 за пакет по сети.