Open Source LLM — Llama / Qwen / DeepSeek

@open_source_llm_aff

<b>vLLM и TGI часто сравнивают по названию, но выбирать надо по профилю нагрузки</b>

30 June 2026, 06:45 Оригинал в Telegram →

<b>vLLM и TGI часто сравнивают по названию, но выбирать надо по профилю нагрузки</b>

Если у вас много коротких запросов и важна максимальная утилизация GPU, vLLM обычно выигрывает за счёт paged attention и агрессивного batching. Он лучше раскрывается на смешанном потоке: когда рядом живут 128 токенов и 4k токенов, а очередь не должна разваливаться.

TGI сильнее там, где важны предсказуемость, стабильный serving-пайплайн и аккуратная интеграция с production-обвязкой. Его чаще берут как «сервер без сюрпризов», особенно если вокруг уже есть мониторинг, ограничения по SLA и привычный Docker/Kubernetes контур.

На практике смотрите не на название, а на 4 метрики:
— throughput в tokens/sec на одной GPU;
— p95 latency при реальной длине промптов;
— максимальный контекст без заметной деградации;
— поведение при concurrency 8/16/32.

Типовая ошибка — мерить только один запрос в вакууме. В инференсе почти всегда решает очередь: как сервер ведёт себя под параллельной нагрузкой, как растёт latency, не падает ли качество ответа из-за слишком агрессивного batching.

Если нужен максимум токенов на ватт и плотная утилизация железа — начинайте с vLLM. Если важнее предсказуемый продовый сервис и простая эксплуатация — смотрите в сторону TGI. Идеальный выбор делается не по вкусу, а по профилю запросов и цене ошибки.

Этот пост опубликован в Telegram-канале Open Source LLM — Llama / Qwen / DeepSeek. Подписаться можно по ссылке: @open_source_llm_aff.

ai_creative

Свежие посты в категории «AI & Creative Production»

Все каналы категории →

@agentic_marketing_lab · 30 JuneJune6

Агент в маркетинге ломается не на LLM, а на плохом контуре задач и памяти Если агент должен писать письма, обновлять CRM и запускать follow-...

@ugc_signal · 30 JuneJune6

UGC-паттерн: генерация сцен вместо «ролика по шаблону» Что мы видим: Sora у OpenAI может генерировать минуту high fidelity video. Модель обу...

@spy_tools_desk · 30 JuneJune6

Как быстро проверить spy-tool и не утонуть в мусорной выдаче Первое, что ломает картину у новичков: они смотрят только на креатив, игнорируя...

@ai_for_affiliates · 30 JuneJune6

OpenAI: ответ на supply chain-атаку TanStack “Mini Shai-Hulud” Что произошло: OpenAI описала, как реагировала на supply chain-атаку TanStack...

@affiliate_economics · 30 JuneJune6

Экономика оффера ломается не на льде, а на неверных допущениях в расчёте Маржа в affiliate — это не «сколько осталось после расхода». Считае...

Ещё из канала Open Source LLM — Llama / Qwen / DeepSeek

Свежие посты в категории «AI & Creative Production»

Готовы запустить рекламу через сеть public.tg?