Китайский ИИ Kimi K2 расширит возможности: новые версии и функции

Главное:

Разработчики Moonshot AI анонсировали выпуск новых версий китайской модели искусственного интеллекта Kimi K2, включая облегчённые варианты для потребительского оборудования.
В ближайшем обновлении появится поддержка мультимодальности с компьютерным зрением, что позволит анализировать визуальные данные и документы.
В планах также внедрение агентного режима, позволяющего модели последовательно использовать инструменты и возвращаться к рассуждению для повышения качества работы.

Команда Moonshot AI поделилась деталями о перспективах развития своей модели искусственного интеллекта Kimi K2. В ходе сессии вопросов и ответов на платформе Reddit специалисты раскрыли планы по выпуску нескольких новых вариантов модели, ориентированных на разные сценарии использования. В частности, ожидается появление облегчённых версий с параметрами порядка 15–30 миллиардов, которые смогут работать на доступных видеокартах NVIDIA серии RTX 3090, 4090 и 5090. Это позволит запускать ИИ локально на персональных компьютерах и в корпоративных условиях для проведения экспериментов и повседневных задач.

Одним из заметных нововведений станет расширение возможностей K2 за счёт мультимодальности: новая версия с поддержкой компьютерного зрения позволит анализировать графики, скриншоты, PDF-файлы и другие визуальные материалы. Модель сможет отвечать на вопросы, основанные на содержимом изображений и документов, что расширит спектр её применения в различных сферах, включая бизнес-аналитику и научные исследования.

Кроме того, разработчики работают над интеграцией агентного режима, при котором модель будет следовать циклу «думать → использовать инструмент → думать снова». Это означает, что K2 самостоятельно сможет выполнять поиск информации, запускать код и обрабатывать данные, возвращаясь к рассуждению после каждого шага. Такой подход позволит максимально эффективно решать сложные задачи в области анализа данных, программирования и исследований. В настоящее время команда сосредоточена на обеспечении стабильности этого механизма, чтобы избежать ошибок и нежелательных отклонений в процессе взаимодействия с инструментами.

С технической стороны модель уже перешла на использование INT4 в качестве базового формата инференса, что значительно ускоряет обработку без потери качества. В ядре K2 применяется гибридный подход к вниманию (KDA + NoPE MLA), а оптимизатор Muon успешно прошёл масштабное тестирование. Также в разговоре разработчики упомянули о предстоящей модели K3, находящейся на ранней стадии разработки, и отметили, что её релиз планируется достаточно скоро, хотя конкретных сроков пока не называют.