- Вышла обновлённая мультимодальная модель Kimi K2.5, способная писать и отлаживать код по изображениям и видео.
- Модель обучалась на 15 триллионах визуально-текстовых токенов без разделения на отдельные пайплайны для зрения и текста.
- K2.5 оснащена слоем Agent Swarm, который позволяет одновременно управлять до 100 под-агентами, ускоряя работу в 4.5 раза по сравнению с одиночным агентом.
Обновление открытой мультимодальной модели Kimi K2.5 существенно расширяет возможности искусственного интеллекта в области программирования и визуального восприятия. Одним из ключевых нововведений стало введение «coding with vision» — способность модели генерировать и исправлять код, опираясь не только на текст, но и на визуальные данные, такие как картинки и видео. Это позволяет, например, восстанавливать интерфейсы из скринкастов, выявлять и устранять визуальные баги, а также преобразовывать дизайн или анимации в работающий фронтенд.
Особое внимание разработчики уделили интеграции визуальных и текстовых данных без разделения модели на отдельные пайплайны, что значительно улучшает качество и точность работы. В общей сложности для дообучения было использовано порядка 15 триллионов визуально-текстовых токенов.
Тестирование нового релиза проводилось на известном бенчмарке SWE-Bench, включая задачи с многоязычным программированием, а также на внутренних end-to-end сценариях, охватывающих сборку, рефакторинг, тестирование и отладку программного кода. По утверждению команды, Kimi K2.5 демонстрирует стабильное превосходство над предыдущей версией K2, особенно в задачах, связанных с фронтендом и выполнением длинных цепочек изменений в коде.
Также в K2.5 был внедрён отдельный слой под названием Agent Swarm, который способен динамически разветвлять задачи между до 100 под-агентами. Это позволяет выполнять до 1500 инструментальных шагов параллельно, обеспечивая ускорение в среднем в 4.5 раза по сравнению с работой одного агента. Такие возможности открывают перспективы для более эффективного решения комплексных инженерных задач с участием ИИ.
Новый релиз Kimi K2.5 свидетельствует о стремительном развитии технологий искусственного интеллекта в программировании и демонстрирует растущие возможности моделей, способных взаимодействовать с многообразными форматами данных, включая визуальные. Эти достижения особенно актуальны для разработки интерфейсных решений и автоматизации сложных процессов в софте.
