Выпущена новая open source-модель Kimi K2 для сложных рассуждений

Главное:

Вышла новая open source модель Kimi K2 Thinking, способная выполнять до 300 последовательных действий с логикой, поиском и кодированием.
Модель установила рекорды на нескольких бенчмарках, демонстрируя высокие результаты в логическом мышлении, программировании и агентных задачах.
K2 Thinking превосходит человеческий уровень в сложных сценариях веб-поиска и создания интерактивных приложений с нуля.

Недавно была представлена новая открытая модель искусственного интеллекта Kimi K2 Thinking, предназначенная для сложных рассуждений и агентных задач. Эта разработка выделяется способностью выполнять до 300 последовательных операций, объединяя логику, поиск информации и генерацию кода. Такой уровень масштабирования вычислительных процессов достигается за счёт увеличения как объёма «токенов размышления», так и числа вызовов различных инструментов.

Kimi K2 Thinking продемонстрировала высокие результаты на нескольких специализированных бенчмарках, оценивающих её интеллектуальные возможности. Так, на тесте Humanity’s Last Exam (HLE), который включает более 100 экспертных вопросов из разных областей, модель показала точность 44,9%, используя для работы инструменты поиска, Python и веб-браузер. Это свидетельствует о выдающемся уровне логического мышления и решения комплексных задач.

В области программирования новая модель также показывает значительный прогресс. Она достигает 61,1% на мультилингвистическом тесте SWE-Multilingual, 71,3% на SWE-Bench Verified и 47,1% на Terminal-Bench. Эти показатели подчёркивают хорошую переносимость навыков кодирования между разными языками и агентными системами.

Особое внимание заслуживает результат на бенчмарке BrowseComp, где K2 Thinking оценивается по способности к непрерывному поиску и анализу сложной информации в интернете. С показателем в 60,2% модель существенно превзошла человеческий базовый уровень в 29,2%, что указывает на её эффективность в динамичных средах, насыщенных информацией.

Ярким примером возможностей модели стала генерация сложных интерактивных приложений с нуля, демонстрирующая высокий уровень качества сгенерированного кода и функциональности. Такие примеры демонстрируют потенциал Kimi K2 Thinking в практическом применении, особенно в разработке MVP и визуализации данных.

Подробнее ознакомиться с примерами и техническими подробностями релиза можно на официальной странице проекта.