<b>vLLM и TGI ломаются не на железе, а на неправильной нагрузке и промптах</b>
Если модель одна и та же, разница между vLLM и TGI чаще всего упирается в профиль трафика: короткие чаты, длинный контекст, много параллельных сессий, стриминг или batch. Перед выбором проверьте три вещи: среднюю длину prompt, среднюю длину completion и пик одновременных запросов.
vLLM обычно выигрывает там, где важны высокий throughput и плотная загрузка GPU: paged attention лучше переживает фрагментацию KV-cache, а continuous batching помогает держать карту занятой. TGI удобнее, когда нужен более предсказуемый продовый сервис, аккуратный streaming и проще контроль вокруг inference-пайплайна.
Практическая ошибка — сравнивать их на одном коротком промпте. На 100–200 токенах разница может быть почти незаметна, а на длинном контексте и очереди из десятков запросов картина меняется: один стек начинает упираться в память, другой — в scheduler. Смотрите не только tokens/sec, но и p95 latency, OOM rate и время ожидания в очереди.
Если строите свой API под прод, тестируйте оба стека на реальном распределении запросов, а не на синтетике. Побеждает не «самый быстрый сервер», а тот, который держит ваш профиль нагрузки без деградации качества и с предсказуемой стоимостью инференса.
Open Source LLM — Llama / Qwen / DeepSeek
@open_source_llm_aff
<b>vLLM и TGI ломаются не на железе, а на неправильной нагрузке и промптах</b>
Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.