Я всегда считал, что в AI-инфраструктуре самая дорогая ошибка — покупать железо “по привычке”.
Человек уже сидел на `RTX 4080` с 16 ГБ VRAM, но для локальных моделей этого мало. Вместо того чтобы сразу платить за топовую consumer-карту с жирной памятью, он пошёл в серый, но рабочий обходной путь: взял серверный `GPU` за £200, воткнул через адаптер и собрал систему на `32 ГБ VRAM` из двух карт.
Итог: модель на `27B` параметров крутится локально и выдаёт `32 tokens/sec`. Это не история про хак ради хакa. Это история про то, что рынок железа для AI сломан: за “удобство” вы платите x3–x5, а за “нормальный” сценарий — переплачиваете за маркетинг.
Мой вывод простой: если задача — локальный inference, сначала считайте память и пропускную способность, потом бренды и “игровые” линейки. Иногда самый дешёвый путь выглядит как костыль. Но в кризисе ресурсов костыль — это и есть стратегия.
Crisis Room
@CrisisRoomPro
Я всегда считал, что в AI-инфраструктуре самая дорогая ошибка — покупать железо “по привычке”.
Этот пост опубликован в Telegram-канале Crisis Room. Подписаться можно по ссылке: @CrisisRoomPro.