Open Source LLM — Llama / Qwen / DeepSeek

<b>Llama в проде: 6 ошибок, из-за которых open-source съедает бюджет и latency</b>

<b>Llama в проде: 6 ошибок, из-за которых open-source съедает бюджет и latency</b>

Llama часто берут как «дешёвую замену API», но без дисциплины по инференсу она быстро становится дорогой. Смотри не на размер модели, а на связку: качество, throughput, VRAM и лицензия. Для одной и той же модели разница между fp16, int8 и int4 может быть в 2–4 раза по памяти и заметно по скорости.

— Не запускай модель «как есть»: сначала посчитай контекст, batch size и потолок по VRAM. Если длинный контекст нужен редко, лучше ограничить его на уровне сервиса.
— Для chat-задач часто выгоднее 8B в int4 на одной GPU, чем 70B, который постоянно уходит в своп и даёт p95 latency в космос.
— Смотри на формат вывода: vLLM хорошо держит throughput на батчах, llama.cpp удобен для CPU/GGUF, TGI чаще берут под стабильный серверный пайплайн.
— Не путай «модель умеет 128k» с «128k комфортно в проде»: после определённого объёма attention начинает бить по скорости и качеству.

Лицензия тоже часть стоимости. У Llama нельзя смотреть только на веса: проверь коммерческое использование, ограничения на перераспространение и требования к атрибуции. Ошибка здесь дороже, чем лишняя GPU-минута.

<b>Практика простая: сначала выбери режим инференса и бюджет токена, потом уже размер Llama. Иначе ты покупаешь не модель, а постоянную утечку денег.</b>
Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.
ai_creative

Свежие посты в категории «AI & Creative Production»

Все каналы категории →

start

Готовы запустить рекламу через сеть public.tg?

Новый оффер, продукт, GEO, кейс, событие или партнёрский запуск — соберём маршрут под задачу и отдадим медиаплан.

Telegram для медиаплана: @dumay. Быстрый тест: $20 за канал, $1000 за пакет по сети.