- Cursor представила Composer 2 — собственную модель для задач программирования.
- На Terminal-Bench 2.0 модель набрала 61,7 балла против 47,9 у прошлой версии, а на SWE-bench Multilingual — 73,7 против 65,9.
- Базовая цена составляет $0,50 за миллион входных токенов и $2,50 за миллион выходных, также доступна более быстрая версия за $1,50 и $7,50.
Cursor представила Composer 2 — новую собственную модель, заточенную под программирование. Компания заявляет, что она стала примерно на 25–30% сильнее предыдущей версии по ключевым замерам. Модель уже анонсирована как решение для сложных задач, где ИИ должен выполнять длинную цепочку последовательных действий.
По данным Cursor, на тесте Terminal-Bench 2.0 Composer 2 получила 61,7 балла, тогда как прошлое поколение набирало 47,9. В другом бенчмарке, SWE-bench Multilingual, который проверяет, как модель справляется с инженерными задачами в коде на разных языках, результат вырос с 65,9 до 73,7.
В компании отдельно подчеркнули, что Composer 2 лучше работает в сценариях, где требуется не один ответ, а серия шагов: например, когда нужно последовательно анализировать проект, вносить изменения и доводить задачу до конца. Именно такие многошаговые процессы остаются одной из самых сложных зон для ИИ-инструментов для разработки.
Cursor также раскрыла стоимость использования модели. Базовый тариф — $0,50 за миллион входных токенов и $2,50 за миллион выходных. Токены — это условные единицы текста, которыми измеряют объём данных для модели. Для тех, кому важна скорость, доступен быстрый вариант: $1,50 за миллион входных токенов и $7,50 за миллион выходных.
Cursor развивает собственные ИИ-модели для программирования наряду с инструментами внутри редактора кода. На этом рынке компании соревнуются не только по качеству ответов, но и по цене, скорости и способности решать длинные цепочки задач без участия человека.
Для разработчиков и команд это означает появление ещё одной специализированной модели для написания и правки кода с понятной ценой. Для бизнеса важны два параметра из новости: рост результатов в профильных тестах и отдельный быстрый тариф для сценариев, где критична скорость работы.