Все думают, что для локального LLM нужен **один дорогой GPU с большой VRAM**. На практике часто выгоднее собрать память из нескольких карт и не переплачивать за «топ» 👇
У человека уже была `RTX 4080` на 16 ГБ — для игр ок, для тяжёлых моделей мало. Вместо покупки новой флагманской карты он взял **серверный GPU за £200**, подключил его через адаптер и получил **32 ГБ VRAM в системе**.
Итог: на двух GPU крутится модель на **27 млрд параметров** со скоростью около `32 tok/s`.
Вывод для тех, кто считает бюджеты, а не железки: в задачах ML/AI часто важнее __собрать рабочую конфигурацию__, чем гнаться за одной «идеальной» видеокартой. То же самое и в таргете: не всегда нужен один большой бюджет — иногда эффективнее связка из нескольких сегментов, креативов и событий, которые вместе дают нужный результат.
VK Target Lab
@VKTargetLabPro
Все думают, что для локального LLM нужен **один дорогой GPU с большой VRAM**. На практике часто выгоднее собра
Этот пост опубликован в Telegram-канале VK Target Lab. Подписаться можно по ссылке: @VKTargetLabPro.