Open Source LLM — Llama / Qwen / DeepSeek

<b>S-Adam: оптимизатор для неровного ландшафта, где AdamW уже начинает дрожать</b>

<b>S-Adam: оптимизатор для неровного ландшафта, где AdamW уже начинает дрожать</b>

В arXiv вышел <b>Singularity-aware Adam (S-Adam)</b> — оптимизатор, который динамически меняет шаг через локальную геометрическую нестабильность.
Ключевая метрика — <b>Local Geometric Instability (LGI)</b>: она оценивает диаметр субдифференциала Clarke по дисперсии случайных направленных производных.

Авторы добавляют демпфирование <code>exp(-λρ)</code>: в зонах с высокой нестабильностью шаги замедляются, а в гладких басинах скорость сохраняется.
В теории заявлена сходимость почти наверное к <code>(δ,ε)</code>-Clarke stationary points со скоростью <code>O(1/√T)</code>.

На практике это интересно там, где обычный AdamW начинает ловить осцилляции: <b>QAT</b>, маленькие батчи, шумные градиенты.
В экспериментах S-Adam обошёл AdamW и Prox-SGD: до <b>+6%</b> на CIFAR-100 и до <b>+3%</b> на TinyImageNet.

Если у вас файнтюн под жёсткую квантизацию или нестабильный лосс, такой адаптивный damping стоит смотреть раньше, чем опять крутить lr и weight decay.
Источники:
Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.
start

Готовы запустить рекламу через сеть public.tg?

Новый оффер, продукт, GEO, кейс, событие или партнёрский запуск — соберём маршрут под задачу и отдадим медиаплан.

Telegram для медиаплана: @dumay. Быстрый тест: $20 за канал, $99 за пакет по сети.