<b>Llama в проде: 6 ошибок, из-за которых open-source съедает бюджет и latency</b>
Llama часто берут как «дешёвую замену API», но без дисциплины по инференсу она быстро становится дорогой. Смотри не на размер модели, а на связку: качество, throughput, VRAM и лицензия. Для одной и той же модели разница между fp16, int8 и int4 может быть в 2–4 раза по памяти и заметно по скорости.
— Не запускай модель «как есть»: сначала посчитай контекст, batch size и потолок по VRAM. Если длинный контекст нужен редко, лучше ограничить его на уровне сервиса.
— Для chat-задач часто выгоднее 8B в int4 на одной GPU, чем 70B, который постоянно уходит в своп и даёт p95 latency в космос.
— Смотри на формат вывода: vLLM хорошо держит throughput на батчах, llama.cpp удобен для CPU/GGUF, TGI чаще берут под стабильный серверный пайплайн.
— Не путай «модель умеет 128k» с «128k комфортно в проде»: после определённого объёма attention начинает бить по скорости и качеству.
Лицензия тоже часть стоимости. У Llama нельзя смотреть только на веса: проверь коммерческое использование, ограничения на перераспространение и требования к атрибуции. Ошибка здесь дороже, чем лишняя GPU-минута.
<b>Практика простая: сначала выбери режим инференса и бюджет токена, потом уже размер Llama. Иначе ты покупаешь не модель, а постоянную утечку денег.</b>
Open Source LLM — Llama / Qwen / DeepSeek
@open_source_llm_aff
<b>Llama в проде: 6 ошибок, из-за которых open-source съедает бюджет и latency</b>
Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.