<b>S-Adam: оптимизатор для неровного ландшафта, где AdamW уже начинает дрожать</b>
В arXiv вышел <b>Singularity-aware Adam (S-Adam)</b> — оптимизатор, который динамически меняет шаг через локальную геометрическую нестабильность.
Ключевая метрика — <b>Local Geometric Instability (LGI)</b>: она оценивает диаметр субдифференциала Clarke по дисперсии случайных направленных производных.
Авторы добавляют демпфирование <code>exp(-λρ)</code>: в зонах с высокой нестабильностью шаги замедляются, а в гладких басинах скорость сохраняется.
В теории заявлена сходимость почти наверное к <code>(δ,ε)</code>-Clarke stationary points со скоростью <code>O(1/√T)</code>.
На практике это интересно там, где обычный AdamW начинает ловить осцилляции: <b>QAT</b>, маленькие батчи, шумные градиенты.
В экспериментах S-Adam обошёл AdamW и Prox-SGD: до <b>+6%</b> на CIFAR-100 и до <b>+3%</b> на TinyImageNet.
Если у вас файнтюн под жёсткую квантизацию или нестабильный лосс, такой адаптивный damping стоит смотреть раньше, чем опять крутить lr и weight decay.
Open Source LLM — Llama / Qwen / DeepSeek
@open_source_llm_aff
<b>S-Adam: оптимизатор для неровного ландшафта, где AdamW уже начинает дрожать</b>
Источники:
Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.