Сбербанк открыл доступ к весам GigaChat Ultra и Kandinsky 5.0

Главное:

«Сбер» открыл веса и код новых моделей искусственного интеллекта для генерации текста, видео, изображений и аудио под лицензией MIT.
Семейство языковых моделей GigaChat базируется на архитектуре Mixture of Experts и ориентировано на русский язык, включая крупную модель GigaChat Ultra и компактную GigaChat Lightning.
Выпущены модели Kandinsky 5.0 для генерации изображений и видео, а также GigaAM-v3 — набор моделей распознавания речи на русском языке и автокодировщики K-VAE 1.0.

На конференции AI Journey представители компании «Сбер» сообщили о важном шаге в развитии искусственного интеллекта — выпуске исходного кода и весов собственных моделей ИИ. Открытый доступ предоставляется под лицензией MIT, что позволяет использовать их и в коммерческих целях.

Особое внимание уделено семейству больших языковых моделей GigaChat, построенных на архитектуре MoE (Mixture of Experts) и разработанных с нуля для задач на русском языке. В состав входит масштабная версия GigaChat Ultra Preview с 702 миллиардами параметров, которая уже превосходит по качеству русского текста известную модель DeepSeek V3.1, несмотря на продолжающееся обучение. Более лёгкая модель — GigaChat Lightning — рассчитана на локальный запуск и обеспечивает высокое качество ответов на русском при более высокой скорости работы по сравнению с аналогами.

Также представлены модели Kandinsky 5.0 для генерации и редактирования изображений и видео. Версия Image Lite создаёт изображения в HD с поддержкой кириллицы и западных шрифтов, а две модификации видео — Video Lite и Video Pro — позволяют генерировать видео продолжительностью до 10 секунд в HD и 24 кадра в секунду, где Video Lite адаптирована для использования на обычных домашних видеокартах с 12 Гб памяти.

Для задач автоматического распознавания речи на русском языке открыт набор из пяти моделей GigaAM-v3, которые пригодятся для создания голосовых ассистентов и аналитических систем обработки звонков. Кроме того, в релиз вошёл K-VAE 1.0 — набор автокодировщиков для преобразования изображений и видео в скрытые представления, что способствует более эффективному обучению и применению генеративных моделей.

Все описанные модели доступны на платформах GitHub и Hugging Face, что способствует развитию экосистемы открытого искусственного интеллекта и позволяет создавать собственные проекты на современном уровне технологий «Сбера».