Open Source LLM — Llama / Qwen / DeepSeek

<b>vLLM и TGI ломаются не на железе, а на неправильной нагрузке и промптах</b>

<b>vLLM и TGI ломаются не на железе, а на неправильной нагрузке и промптах</b>

Если модель одна и та же, разница между vLLM и TGI чаще всего упирается в профиль трафика: короткие чаты, длинный контекст, много параллельных сессий, стриминг или batch. Перед выбором проверьте три вещи: среднюю длину prompt, среднюю длину completion и пик одновременных запросов.

vLLM обычно выигрывает там, где важны высокий throughput и плотная загрузка GPU: paged attention лучше переживает фрагментацию KV-cache, а continuous batching помогает держать карту занятой. TGI удобнее, когда нужен более предсказуемый продовый сервис, аккуратный streaming и проще контроль вокруг inference-пайплайна.

Практическая ошибка — сравнивать их на одном коротком промпте. На 100–200 токенах разница может быть почти незаметна, а на длинном контексте и очереди из десятков запросов картина меняется: один стек начинает упираться в память, другой — в scheduler. Смотрите не только tokens/sec, но и p95 latency, OOM rate и время ожидания в очереди.

Если строите свой API под прод, тестируйте оба стека на реальном распределении запросов, а не на синтетике. Побеждает не «самый быстрый сервер», а тот, который держит ваш профиль нагрузки без деградации качества и с предсказуемой стоимостью инференса.
Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.
start

Готовы запустить рекламу через сеть public.tg?

Новый оффер, продукт, GEO, кейс, событие или партнёрский запуск — соберём маршрут под задачу и отдадим медиаплан.

Telegram для медиаплана: @dumay. Быстрый тест: $20 за канал, $1000 за пакет по сети.