Open Source LLM — Llama / Qwen / DeepSeek

<b>vLLM и TGI часто сравнивают по названию, но выбирать надо по профилю нагрузки</b>

<b>vLLM и TGI часто сравнивают по названию, но выбирать надо по профилю нагрузки</b>

Если у вас много коротких запросов и важна максимальная утилизация GPU, vLLM обычно выигрывает за счёт paged attention и агрессивного batching. Он лучше раскрывается на смешанном потоке: когда рядом живут 128 токенов и 4k токенов, а очередь не должна разваливаться.

TGI сильнее там, где важны предсказуемость, стабильный serving-пайплайн и аккуратная интеграция с production-обвязкой. Его чаще берут как «сервер без сюрпризов», особенно если вокруг уже есть мониторинг, ограничения по SLA и привычный Docker/Kubernetes контур.

На практике смотрите не на название, а на 4 метрики:
— throughput в tokens/sec на одной GPU;
— p95 latency при реальной длине промптов;
— максимальный контекст без заметной деградации;
— поведение при concurrency 8/16/32.

Типовая ошибка — мерить только один запрос в вакууме. В инференсе почти всегда решает очередь: как сервер ведёт себя под параллельной нагрузкой, как растёт latency, не падает ли качество ответа из-за слишком агрессивного batching.

Если нужен максимум токенов на ватт и плотная утилизация железа — начинайте с vLLM. Если важнее предсказуемый продовый сервис и простая эксплуатация — смотрите в сторону TGI. Идеальный выбор делается не по вкусу, а по профилю запросов и цене ошибки.
Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.
ai_creative

Свежие посты в категории «AI & Creative Production»

Все каналы категории →

start

Готовы запустить рекламу через сеть public.tg?

Новый оффер, продукт, GEO, кейс, событие или партнёрский запуск — соберём маршрут под задачу и отдадим медиаплан.

Telegram для медиаплана: @dumay. Быстрый тест: $20 за канал, $1000 за пакет по сети.