Google сжала кэш LLM до 3 бит и ускорила их в 8 раз

Главное:

Google Research представила алгоритм TurboQuant для сжатия кэша больших языковых моделей до 3 бит без дообучения.
По данным компании, объём key-value cache сокращается как минимум в 6 раз, а вычисления механизма внимания ускоряются до 8 раз на GPU H100.
Работу планируют представить на конференции ICLR 2026; алгоритм протестировали на моделях Gemma и Mistral.

Google Research представила TurboQuant — алгоритм, который уменьшает внутренний кэш больших языковых моделей до 3 бит без заметной потери качества ответов и без дополнительного обучения. Разработку покажут на ICLR 2026. Речь идёт о key-value cache — служебной памяти, где модель хранит промежуточные данные во время работы с длинным текстом.

Именно этот кэш часто становится узким местом при длинном контексте: чем он больше, тем выше расход памяти и тем медленнее генерация. TurboQuant решает задачу в два этапа. Сначала метод PolarQuant переводит данные в полярные координаты и сжимает основную часть информации. Затем однобитовый алгоритм QJL компенсирует оставшиеся ошибки. В итоге кэш удаётся сильно уменьшить без обычных накладных расходов, которые часто сопровождают квантизацию — то есть перевод данных в более компактный формат.

Google проверила TurboQuant на открытых моделях Gemma и Mistral. Для оценки использовали наборы тестов LongBench, Needle In A Haystack, RULER и другие бенчмарки для длинного контекста. По заявленным результатам, объём кэша снижается минимум в шесть раз, а вычисление внимания — ключевого механизма, который помогает модели выбирать важные части текста, — ускоряется до восьми раз на GPU H100 по сравнению с 32-битным режимом в 4-битной конфигурации. В тесте на поиск одного факта в очень большом тексте модель с TurboQuant отработала без ошибок.

Авторы также пишут, что алгоритм подходит не только для LLM, но и для векторного поиска — технологии, на которой держится семантический поиск. По данным Google, TurboQuant показал более высокую точность, чем другие методы квантизации, и при этом не потребовал подстройки под конкретный датасет. Компания отдельно подчёркивает, что рассматривает разработку не только как практический приём для ускорения моделей, но и как алгоритмический результат с доказанной оптимальностью.

Контекст

По мере роста контекстных окон у языковых моделей нагрузка на память и ускорители растёт вместе с размером key-value cache. Поэтому методы сжатия такого кэша становятся важной частью оптимизации ИИ-систем и сервисов поиска.

Что это значит на практике

Для разработчиков ИИ это означает возможность запускать длинный контекст с меньшими затратами памяти и быстрее обрабатывать запросы на тех же GPU. Для сервисов на базе LLM это даёт шанс обслуживать больше длинных запросов без расширения инфраструктуры.

Источники