- За последние 33 месяца стоимость единицы интеллекта в языковых моделях (LLM) упала на 98%.
- Google выпустила Gemini 3 Flash, обеспечивающую в 4–9 раз лучшее соотношение цена/производительность по сравнению с другими моделями.
- Стоимость инференса в ИИ снижается примерно в 10 раз ежегодно — этот темп превышает закон Мура для транзисторов.
Ведущие эксперты рынка искусственного интеллекта, проанализировав новые данные, отмечают рекордное снижение стоимости вычислительной мощности языковых моделей последнего поколения. Венчурный инвестор Томаш Тунгуз, партнер венчурного фонда Theory Ventures, подсчитал, что за 33 месяца стоимость «единицы интеллекта» — показатели производительности моделей ИИ с учётом их цены — упала почти на 98%.
В качестве яркого примера он привел новую модель Google — Gemini 3 Flash. По сравнению с GPT-4, стоимость одного балла качества по бенчмаркам теперь составляет $1,10 против $65 в марте 2023 года. Gemini 3 Flash демонстрирует впечатляющее соотношение цены и качества: пользователь получает порядка 30,3 балла качества на каждый доллар, что в 4–9 раз эффективнее, чем у конкурентов, включая GPT-5.2 и Claude Opus 4.5.
Для анализа Тунгуз использовал комплексный подход: он взял 20 различных бенчмарков, определил для каждого лучший результат, затем оценил отставание моделей и сопоставил их с ценой токенов, учитывая типичные соотношения входных и выходных данных. Итоговая метрика — цена за качество — позволяет объективно оценить эффективность затрат при использовании моделей ИИ.
Эксперты называют стратегию Google «ценами ликвидации», подчеркивая, что компания продаёт высокопроизводительные модели по очень низким ценам. Такой подход стал возможен благодаря контролю Google над собственными процессорами TPU и инфраструктурой дата-центров, что существенно снижает издержки.
Поддержку полученным выводам оказывает анализ американского венчурного фонда Andreessen Horowitz, который ввёл термин LLMflation для описания быстрого снижения стоимости инференса ИИ — в среднем он падает в 10 раз ежегодно. Такой темп превосходит классический закон Мура, согласно которому количество транзисторов на интегральной схеме удваивалось каждые 18–24 месяца.
Сегодня вычислительные затраты на обработку всех человеческих речевых данных за год моделью уровня GPT-3 оцениваются примерно в $2, что раньше казалось невозможным. Аналогично стоимость анализа кода ядра Linux становится менее доллара. Это значит, что задачи, которые еще недавно были экономически нецелесообразными, быстро станут повседневными в индустрии искусственного интеллекта.
