Claude Sonnet 4.5 стал лидером среди ИИ в программировании

Главное:

Компания Anthropic представила новую модель Claude Sonnet 4.5, улучшенную в задачах программирования и агентов.
На бенчмарке SWE-bench Verified модель показала 77,2% успешных исправлений кода, достигая 82% при параллельном инференсе — лучший результат среди открытых моделей.
Модель уже доступна через Claude.ai, API и крупные облачные платформы, при сохранении прежних цен.

Компания Anthropic анонсировала обновлённую версию своей ИИ-модели — Claude Sonnet 4.5, сделав упор на улучшения в области программирования и работы с агентными сценариями. Ключевым достижением новой версии стало существенное повышение эффективности в задачах исправления кода.

На одном из наиболее значимых тестов для систем автоматического исправления ошибок в программном обеспечении — SWE-bench Verified — Claude Sonnet 4.5 продемонстрировала 77,2% успешных решений, что значительно превосходит результаты предыдущих версий этой модели и конкурентов. При использовании параллельного инференса, позволяющего запускать несколько попыток с последующим отбором наилучшего варианта, точность классифицируется на уровне 82%. Это демонстрирует лидерство Sonnet 4.5 на фоне общедоступных моделей ИИ, ведь предыдущие версии Sonnet и Opus 4.1 достигали около 72–74%, а GPT-5 — порядка 73%.

Помимо SWE-bench Verified, Claude Sonnet 4.5 также улучшил показатели в других сферах: например, в задачах использования компьютера из теста OSWorld эффективность возросла с 42–44% до 61,4%. В математических тестах AIME 2025 модель достигла 87% без использования кода и 100% при помощи Python, а в финансовых задачах впервые преодолела отметку в 55%.

Вместе с релизом Sonnet 4.5 компания обновила и свои продукты, реализовав новые функции в Claude Code: добавлены чекпоинты для фиксации прогресса и расширенный терминал. Также выпущено нативное расширение для VS Code. Через платформу Claude.ai теперь возможно не только запускать и тестировать код, но и создавать разнообразные файлы, такие как таблицы, документы и презентации. Для разработчиков стал доступен Agent SDK с поддержкой памяти и системой управления правами для агентов.

Модель Claude Sonnet 4.5 уже доступна на веб- и мобильной платформе Claude.ai, а также через API и облачные сервисы Amazon Bedrock и Google Vertex AI. При этом стоимость использования осталась прежней — $3 за миллион входных токенов и $15 за миллион выходных, с возможностью экономии до 90% за счёт кэширования подсказок.