Google представила LiteRT-LM — фреймворк для офлайн-LLM на Android и ПК

Главное:

Google представила LiteRT-LM — фреймворк для офлайн-запуска больших языковых моделей на устройствах без интернета.
LiteRT-LM уже применяется в Gemini Nano на Chrome, Chromebook Plus и Pixel Watch и поддерживает работу на Android, Linux, Windows и Raspberry Pi.
Фреймворк обеспечивает высокую производительность и конфиденциальность благодаря оптимизациям и использованию CPU, GPU и NPU.

Компания Google анонсировала новый фреймворк под названием LiteRT-LM, который открывает возможности по локальному запуску крупных языковых моделей без необходимости подключения к сети Интернет. Этот комплексный инструмент служит основой для работы Gemini Nano — модели, применяемой в браузере Chrome, устройствах Chromebook Plus и Pixel Watch.

LiteRT-LM представляет собой полноценный стек для реализации on-device LLM (large language models) пайплайнов, позволяя выполнять задачи различной сложности непосредственно на устройстве пользователя. Архитектура фреймворка разделена на две ключевые части: ядро — Engine, которое инициализирует модель и обрабатывает токенизацию и декодирование, а также сессии — Session, предназначенные для выполнения отдельных задач, например, обработки текста или изображений с использованием загруженных модулей LoRA (Low-Rank Adaptation).

Важным элементом LiteRT-LM являются оптимизации, такие как переключение контекста (Context Switching), клонирование сессий (Session Cloning) и механизм Copy-on-Write для кеша ключ-значение (KV-Cache), что повышает скорость работы и экономит ресурсы устройства. Фреймворк кроссплатформенный: поддерживаются Android, Linux, macOS, Windows и даже энергоэффективные системы типа Raspberry Pi. Он также адаптирован для работы с ускорителями вычислений — CPU, GPU и нейронными процессорами (NPU).

Для разработчиков LiteRT-LM представляет собой открытый и гибкий инструмент с API на C++, который можно интегрировать в собственные проекты, создавая автономные приложения с языковыми моделями, способные работать без подключения к интернету. Такой подход гарантирует сокращение задержек, повышение конфиденциальности пользователей и снижение затрат на облачные ресурсы.

Доступ к исходному коду и сообществу поддержки LiteRT-LM осуществляется через платформы GitHub и HuggingFace, что облегчает адаптацию и дальнейшее развитие фреймворка в разных сферах применения — от мобильных устройств до компактных одноплатных компьютеров.