Google показала TurboQuant: ИИ тратит в 6 раз меньше памяти

Главное:

Google Research представила алгоритм TurboQuant для сжатия памяти ИИ без заметной потери точности.
По данным исследователей, метод позволяет уменьшить объём KV-кэша как минимум в 6 раз и сжимать его до 3 бит без дообучения модели.
Результаты планируют представить на конференции ICLR 2026 в следующем месяце.

Google Research анонсировала TurboQuant — новый алгоритм сжатия памяти для систем искусственного интеллекта. Его задача — уменьшить объём рабочей памяти, которую модели используют во время ответа на запросы, без заметного падения качества. По словам компании, результаты работы представят на ICLR 2026 в следующем месяце.

Речь идёт о так называемом KV-кэше — это часть памяти, где модель хранит промежуточные данные, чтобы быстрее обрабатывать длинные запросы и поддерживать контекст. Именно этот кэш часто становится узким местом: чем длиннее контекст, тем больше памяти нужно. В Google утверждают, что TurboQuant помогает сократить этот расход как минимум в шесть раз, сохраняя точность и ускоряя выполнение некоторых операций.

В основе метода — сочетание двух подходов. Первый, PolarQuant, переводит данные в полярные координаты, чтобы убрать лишние затраты памяти, которые возникают у обычных схем векторного квантования. Второй использует ещё 1 бит на исправление остаточной ошибки через алгоритм QJL, основанный на преобразовании Джонсона — Линденштрауса. Это математический способ уменьшать размер многомерных данных так, чтобы важные расстояния между точками сохранялись.

Исследователи проверили TurboQuant на стандартных тестах для длинного контекста, включая LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval, а также на открытых моделях Gemma и Mistral. По их данным, метод показал высокую полноту поиска и хорошее качество при минимальном объёме памяти. Отдельно Google отмечает, что на LongBench решение дало сильные результаты и на модели Llama-3.1-8B-Instruct.

Компания также указывает, что TurboQuant может быть полезен не только для больших языковых моделей, но и для векторного поиска — технологии, которая помогает находить похожие документы, изображения или фрагменты текста. При этом речь пока идёт именно об инференсе, то есть работе уже готовой модели. Проблему памяти при обучении ИИ этот подход не закрывает.

Контекст

Снижение требований к памяти стало одной из ключевых задач в ИИ-индустрии на фоне роста длинных контекстов и стоимости запуска моделей. Google прямо связывает TurboQuant с задачами семантического поиска и обслуживанием крупных векторных индексов.

Что это значит на практике

Для компаний это может означать более дешёвый запуск ИИ-сервисов с длинным контекстом и меньшую нагрузку на память серверов. Для пользователей — более быстрые ответы моделей в задачах поиска и работы с большими объёмами текста.

Источники