Ling-2.5-1T с триллионом параметров конкурирует с DeepSeek V3.2

Главное:

Ant Group представила открытую языковую модель Ling-2.5-1T с триллионом параметров, из которых 63 млрд активны при генерации.
Ling-2.5-1T обучена на 29 триллионов токенов, поддерживает контекстное окно до 1 миллиона токенов и распространяется под лицензией MIT.
Модель конкурентоспособна с DeepSeek V3.2 и GPT-5.2 по большинству бенчмарков, при этом уступает закрытым моделям в работе с инструкциями, длинным контекстом и задачах на знания и код.

Китайская компания Ant Group, связанная с платежной платформой Alipay и Alibaba, анонсировала выпуск новой открытой языковой модели Ling-2.5-1T, обладающей триллионом параметров, из которых 63 миллиарда находятся в активном состоянии во время генерации текста. Это значительный шаг вперёд по сравнению с предыдущей версией модели, обученной на 20 триллионов токенов — нынешняя версия использовала для обучения 29 триллионов токенов.

Одной из ключевых инноваций Ling-2.5-1T является возможность обработки контекстного окна вплоть до одного миллиона токенов, что потенциально расширяет возможности модели во многих задачах, связанных с анализом больших объёмов текста. Модель распространяется под открытой лицензией MIT, что делает её доступной для широкого круга разработчиков и исследователей. Весовые коэффициенты Ling-2.5-1T уже доступны на платформах Hugging Face и ModelScope, а в ближайшем будущем будет запущен онлайн-чат и API для удобного взаимодействия через Ling Studio и ZenMux.

Архитектура модели представляет собой гибридный подход — комбинацию многоголового линейного внимания и технологии Lightning Linear, что, по словам разработчиков, обеспечивает высокую пропускную способность при работе с длинными последовательностями, превосходя по эффективности даже модели с меньшим количеством активных параметров.

Вместе с Ling-2.5-1T Ant Group показала другую модель на той же архитектуре — Ring-2.5-1T, характеризующуюся как «thinking»-версия, то есть более ориентированную на комплексное мышление и осмысленное взаимодействие. Это отражает стратегию компании по развитию трёх серий открытых моделей: Ling (instant) — для моментального отклика, Ring (thinking) — для глубокого анализа и Ming — мультимодальная серия.

По внутренним бенчмаркам, Ling-2.5-1T демонстрирует конкурентоспособные результаты с моделями DeepSeek V3.2 и GPT-5.2 в большинстве задач. Однако в работе с инструкциями, длительными контекстами и специфическими задачами на знания и программирование Ling-2.5-1T уступает некоторым закрытым решениям, таким как Kimi K2.5, что подчёркивается самими разработчиками.

Следует отметить, что данное обновление вышло менее чем через пять месяцев после выпуска первого триллионного релиза Ling-1T в октябре 2025 года, что свидетельствует о динамичном развитии и интенсивном темпе внедрения инноваций в области открытых китайских языковых моделей. В контексте глобальной конкуренции, особенно в сегменте open-source решений, новые наработки Ant Group могут стать существенным вызовом для таких проектов, как DeepSeek и аналогичных.