В llama.cpp теперь можно менять модели без перезапуска сервера

Главное:

В проект llama.cpp добавлена поддержка router mode — режима динамического переключения языковых моделей без перезагрузки сервера.
Новые возможности позволяют загружать, выгружать и переключать модели по запросу через API и веб-интерфейс.
Функция использует локальный кеш моделей или указанный каталог и значительно упрощает работу с несколькими языковыми моделями одновременно.

Разработчики open-source сервера llama.cpp внедрили долгожданную функцию router mode, которая обеспечивает динамическое управление языковыми моделями без необходимости перезапуска сервера. Данный режим позволяет пользователям одновременно работать с несколькими моделями, оперативно переключаясь между ними, а также загружать и выгружать модели по мере необходимости, что повышает гибкость и сокращает время отклика в рабочих сценариях.

По умолчанию для использования новой функции необходимо запускать llama-server без указания конкретной модели. Ранее загруженные модели автоматически доступны из кеша (LLAMA_CACHE или ~/.cache/llama.cpp). При добавлении новых моделей требуется лишь перезапуск роутера для их активации. Кроме того, можно указать локальную директорию с файлами GGUF-моделей с помощью параметра —models-dir, что облегчает организацию и управление собственным набором моделей.

Набор API-команд позволяет загружать нужные модели («load»), выгружать их, освобождая видеопамять («unload»), а также получать список всех доступных моделей. Для обращения к конкретной модели достаточно указать её имя в запросе к endpointу. Это значительно упрощает интеграцию и масштабирование систем, построенных на базе llama.cpp.

Также реализована поддержка переключения моделей через веб-интерфейс, где можно выбрать нужный вариант из выпадающего меню — модель автоматически загрузится и станет доступна для работы. Это делает функционал удобным как для автоматизированных решений, так и для пользователей с ограниченным техническим опытом.

Новая возможность llama.cpp получила положительные отзывы в сообществе, поскольку давно была в числе самых востребованных функций. Она способствует повышению производительности и удобства использования локальных языковых моделей, сохраняя совместимость с эндпоинтами OpenAI и упрощая разработку приложений на их основе.