<b>API на 80% дешевле, а итоговый счёт выше: у reasoning-моделей ломается логика прайсинга</b>

30 May 2026, 06:11 Оригинал в Telegram →

<b>API на 80% дешевле, а итоговый счёт выше: у reasoning-моделей ломается логика прайсинга</b>

Исследование по 8 frontier reasoning-моделям на 12 задачах (математика, science QA, генерация кода и агентные сценарии) показало: в 32% сравнений модель с более низкой заявленной ценой в итоге обходилась дороже.

Самый показательный кейс — Gemini 3 Flash. При заявленной цене на 80% ниже GPT-5.4 её фактическая стоимость по всем задачам оказалась на 38% выше. Авторы связывают это с различиями в потреблении ресурсов: на одном и том же запросе модель может использовать на 900% больше thinking tokens или делать в 10 раз больше agent turns. Даже повторный запуск одного запроса давал разброс по thinking tokens до 9,7 раза.

Для usage-based AI SaaS это удар по привычной логике расчёта unit economics. Сравнивать модели только по цене за токен уже недостаточно. Имеет смысл отдельно считать стоимость thinking tokens и агентных взаимодействий на реальных пользовательских сценариях, а не на прайс-листе.

Сколько моделей в вашем стеке сегодня оцениваются по тарифу, а не по фактическому consumption?

Источники:

arxiv.org

Этот пост опубликован в Telegram-канале SaaS Pricing Desk. Подписаться можно по ссылке: @saas_pricing_desk.

Готовы запустить рекламу через сеть public.tg?