<b>DeepSeek в проде ломается не на “качестве”, а на неправильном выборе режима инференса</b>
У DeepSeek сильная сторона — хороший баланс reasoning/код/инструменты, но в проде его часто ставят как “универсальную” модель и получают лишнюю задержку и перерасход GPU.
Если нужен быстрый чат или автодополнение — смотрите на маленькие dense-версии и агрессивную квантизацию. Если нужен сложный reasoning — берите более крупную модель, но сразу закладывайте: контекст держать длинным, а batch — умеренным, иначе latency растёт скачком.
Для self-hosted стека важны три вещи:
— vLLM: лучший вариант, когда нужен высокий throughput и нормальная работа с batching
— TGI: удобен для стабильного API и предсказуемого поведения под нагрузкой
— llama.cpp: полезен для локальных и дешёвых сценариев, но не для максимального QPS
Отдельно проверьте prompts: у DeepSeek чувствительность к формату выше, чем у многих “чатовых” моделей. Короткий системный промпт, жёсткая структура ответа и ограничение на длину часто дают больше, чем попытка “докрутить” модель ещё одним GPU.
Если модель не укладывается в SLA, проблема обычно не в ней, а в связке размер модели + квантизация + сервер. Сначала меряйте tokens/sec и p95 latency, потом уже принимайте решение, что резать.
Open Source LLM — Llama / Qwen / DeepSeek
@open_source_llm_aff
<b>DeepSeek в проде ломается не на “качестве”, а на неправильном выборе режима инференса</b>
Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.