- Google Research представила алгоритм TurboQuant, который сжимает KV-кэш языковых моделей до 3 бит.
- По данным компании, решение работает без потери точности ответов и ускоряет вычисления до 8 раз на NVIDIA H100.
- После публикации о технологии 25 марта акции ряда производителей памяти и оборудования для чипов пошли вниз.
Google Research представила алгоритм TurboQuant, который резко сокращает объём памяти для работы больших языковых моделей. Речь идёт о KV-кэше — части памяти, где модель хранит контекст диалога. По данным Google, новый подход сжимает эти данные до 3 бит без ухудшения качества ответов, а на ускорителях NVIDIA H100 даёт ускорение до 8 раз. Официальный показ технологии намечен на апрель, на конференции ICLR 2026.
Рынок отреагировал на новость сразу. 25 марта, пока Nasdaq рос, акции Micron, Western Digital, Seagate, а также Lam Research и Applied Materials снизились. Инвесторы связали это с риском для спроса на память и сопутствующее оборудование: если ИИ-моделям нужно меньше ресурсов для хранения контекста, дата-центрам может понадобиться меньше дорогих чипов и накопителей.
Суть TurboQuant в том, что Google меняет сам способ представления данных. Вместо привычного хранения многомерных координат алгоритм переводит их в полярную систему и работает с радиусом и углом. Такой подход, который в Google называют PolarQuant, позволяет сильнее сжимать данные там, где обычные методы начинают терять важную информацию уже ниже 4 бит.
Дополнительно в схеме используется модуль QJL, который помогает снизить влияние ошибок от жёсткого сжатия. В итоге компания пытается решить проблему длинного контекста не наращиванием объёма памяти, а более экономной математикой. Для отрасли это важный сдвиг: эффективность ИИ теперь зависит не только от новых чипов, но и от того, насколько удачно устроен сам алгоритм.
На рынке уже обсуждают два сценария. Первый — компании будут осторожнее с закупками нового оборудования, потому что существующие ускорители смогут работать эффективнее. Второй — более дешёвый запуск ИИ подтолкнёт новые проекты и расширит рынок. Публично Google пока говорит только о самой технологии и её результатах, без оценок влияния на продажи «железа».
Индустрия ИИ в последние годы росла за счёт всё более мощных ускорителей и увеличения объёмов памяти в дата-центрах. TurboQuant предлагает другой путь: снижать требования к инфраструктуре за счёт алгоритмов, а не только за счёт нового оборудования.
Если результаты Google подтвердятся в реальных продуктах, запуск моделей с длинным контекстом может стать дешевле. Для бизнеса это означает меньше затрат на память и возможность использовать ИИ на более доступном оборудовании.