<b>vLLM и TGI часто сравнивают по названию, но выбирать надо по профилю нагрузки</b>
Если у вас много коротких запросов и важна максимальная утилизация GPU, vLLM обычно выигрывает за счёт paged attention и агрессивного batching. Он лучше раскрывается на смешанном потоке: когда рядом живут 128 токенов и 4k токенов, а очередь не должна разваливаться.
TGI сильнее там, где важны предсказуемость, стабильный serving-пайплайн и аккуратная интеграция с production-обвязкой. Его чаще берут как «сервер без сюрпризов», особенно если вокруг уже есть мониторинг, ограничения по SLA и привычный Docker/Kubernetes контур.
На практике смотрите не на название, а на 4 метрики:
— throughput в tokens/sec на одной GPU;
— p95 latency при реальной длине промптов;
— максимальный контекст без заметной деградации;
— поведение при concurrency 8/16/32.
Типовая ошибка — мерить только один запрос в вакууме. В инференсе почти всегда решает очередь: как сервер ведёт себя под параллельной нагрузкой, как растёт latency, не падает ли качество ответа из-за слишком агрессивного batching.
Если нужен максимум токенов на ватт и плотная утилизация железа — начинайте с vLLM. Если важнее предсказуемый продовый сервис и простая эксплуатация — смотрите в сторону TGI. Идеальный выбор делается не по вкусу, а по профилю запросов и цене ошибки.
Open Source LLM — Llama / Qwen / DeepSeek
@open_source_llm_aff
<b>vLLM и TGI часто сравнивают по названию, но выбирать надо по профилю нагрузки</b>
Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.