Google сжала память ИИ до 3 бит и уронила акции чипмейкеров

Главное:

Google Research представила алгоритм TurboQuant, который сжимает KV-кэш языковых моделей до 3 бит.
По данным компании, решение работает без потери точности ответов и ускоряет вычисления до 8 раз на NVIDIA H100.
После публикации о технологии 25 марта акции ряда производителей памяти и оборудования для чипов пошли вниз.

Google Research представила алгоритм TurboQuant, который резко сокращает объём памяти для работы больших языковых моделей. Речь идёт о KV-кэше — части памяти, где модель хранит контекст диалога. По данным Google, новый подход сжимает эти данные до 3 бит без ухудшения качества ответов, а на ускорителях NVIDIA H100 даёт ускорение до 8 раз. Официальный показ технологии намечен на апрель, на конференции ICLR 2026.

Рынок отреагировал на новость сразу. 25 марта, пока Nasdaq рос, акции Micron, Western Digital, Seagate, а также Lam Research и Applied Materials снизились. Инвесторы связали это с риском для спроса на память и сопутствующее оборудование: если ИИ-моделям нужно меньше ресурсов для хранения контекста, дата-центрам может понадобиться меньше дорогих чипов и накопителей.

Суть TurboQuant в том, что Google меняет сам способ представления данных. Вместо привычного хранения многомерных координат алгоритм переводит их в полярную систему и работает с радиусом и углом. Такой подход, который в Google называют PolarQuant, позволяет сильнее сжимать данные там, где обычные методы начинают терять важную информацию уже ниже 4 бит.

Дополнительно в схеме используется модуль QJL, который помогает снизить влияние ошибок от жёсткого сжатия. В итоге компания пытается решить проблему длинного контекста не наращиванием объёма памяти, а более экономной математикой. Для отрасли это важный сдвиг: эффективность ИИ теперь зависит не только от новых чипов, но и от того, насколько удачно устроен сам алгоритм.

На рынке уже обсуждают два сценария. Первый — компании будут осторожнее с закупками нового оборудования, потому что существующие ускорители смогут работать эффективнее. Второй — более дешёвый запуск ИИ подтолкнёт новые проекты и расширит рынок. Публично Google пока говорит только о самой технологии и её результатах, без оценок влияния на продажи «железа».

Контекст

Индустрия ИИ в последние годы росла за счёт всё более мощных ускорителей и увеличения объёмов памяти в дата-центрах. TurboQuant предлагает другой путь: снижать требования к инфраструктуре за счёт алгоритмов, а не только за счёт нового оборудования.

Что это значит на практике

Если результаты Google подтвердятся в реальных продуктах, запуск моделей с длинным контекстом может стать дешевле. Для бизнеса это означает меньше затрат на память и возможность использовать ИИ на более доступном оборудовании.

Источники