<b>Llama для продакшена: как выбрать размер, чтобы не убить latency и бюджет</b>
Llama — не одна модель, а линейка компромиссов. Для продакшена смотреть надо не на «какая умнее», а на четыре вещи: качество на вашей задаче, скорость инференса, память под контекст и лицензия.
— 8B обычно берут для классификации, коротких ответов, извлечения данных и простых агентов. На одной GPU она даёт хороший throughput, а цена ошибки ниже, чем у более тяжёлых вариантов.
— 70B имеет смысл там, где важны сложные рассуждения, длинные цепочки инструкций и меньшее число перегенераций. Но это уже совсем другой профиль по VRAM и latency.
— Если у вас RAG, то часто выигрывает не «самая большая», а модель с нормальным следованием инструкциям и стабильным форматированием JSON.
— Контекст надо тестировать отдельно: длинное окно есть у многих, но реальная полезность падает раньше, чем маркетинговая цифра.
Практика выбора простая:
1) сначала прогоните 200–500 своих промптов;
2) замерьте долю валидного JSON, число ретраев и p95 latency;
3) только потом решайте, нужен ли рост с 8B до 13B/70B.
Ещё один частый фейл — брать модель под inference, не считая стоимость памяти под KV-cache. На длинных сессиях именно он съедает VRAM, а не только веса.
Если задача не требует максимального reasoning, начинайте с меньшей Llama и докручивайте пайплайн. В проде почти всегда дешевле оптимизировать архитектуру, чем сразу покупать лишние параметры.
Open Source LLM — Llama / Qwen / DeepSeek
@open_source_llm_aff
<b>Llama для продакшена: как выбрать размер, чтобы не убить latency и бюджет</b>
Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.