Open Source LLM — Llama / Qwen / DeepSeek

<b>DeepSeek в проде ломается не на “качестве”, а на неправильном выборе режима инференса</b>

<b>DeepSeek в проде ломается не на “качестве”, а на неправильном выборе режима инференса</b>

У DeepSeek сильная сторона — хороший баланс reasoning/код/инструменты, но в проде его часто ставят как “универсальную” модель и получают лишнюю задержку и перерасход GPU.

Если нужен быстрый чат или автодополнение — смотрите на маленькие dense-версии и агрессивную квантизацию. Если нужен сложный reasoning — берите более крупную модель, но сразу закладывайте: контекст держать длинным, а batch — умеренным, иначе latency растёт скачком.

Для self-hosted стека важны три вещи:
— vLLM: лучший вариант, когда нужен высокий throughput и нормальная работа с batching
— TGI: удобен для стабильного API и предсказуемого поведения под нагрузкой
— llama.cpp: полезен для локальных и дешёвых сценариев, но не для максимального QPS

Отдельно проверьте prompts: у DeepSeek чувствительность к формату выше, чем у многих “чатовых” моделей. Короткий системный промпт, жёсткая структура ответа и ограничение на длину часто дают больше, чем попытка “докрутить” модель ещё одним GPU.

Если модель не укладывается в SLA, проблема обычно не в ней, а в связке размер модели + квантизация + сервер. Сначала меряйте tokens/sec и p95 latency, потом уже принимайте решение, что резать.
Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.
start

Готовы запустить рекламу через сеть public.tg?

Новый оффер, продукт, GEO, кейс, событие или партнёрский запуск — соберём маршрут под задачу и отдадим медиаплан.

Telegram для медиаплана: @dumay. Быстрый тест: $20 за канал, $1000 за пакет по сети.