- Anthropic представили Claude Opus 4.5 — новую флагманскую модель ИИ с улучшенными способностями к программированию, агентным сценариям и аналитике.
- Opus 4.5 демонстрирует лучшие результаты на SWE-bench Verified, лидирует на 7 из 8 языков программирования, а также улучшен в задачах зрения, математики и мультимодальных задачах.
- Модель стала более эффективной, безопасной и устойчивой к атакующим запросам, снизилась стоимость использования, и она уже доступна через API и в популярных облачных сервисах.
Компания Anthropic объявила о выпуске Claude Opus 4.5 — новой версии своей ведущей модели искусственного интеллекта, которая существенно превосходит предшественников в области программирования и агентных систем. По заявлению разработчиков, Opus 4.5 стала их самым мощным релизом, демонстрируя значительный прогресс в сложных задачах реального программирования, глубокого ресёрча, аналитики, а также работе с Excel и презентациями.
Новинка уже доступна в приложениях, через API и на трёх крупных облачных платформах, при этом цена снизилась до $5–$25 за миллион токенов, что делает технологию более доступной для широкой аудитории.
На специализированном тесте SWE-bench Verified модель Opus 4.5 показала лучшие результаты по сравнению с другими современными моделями, включая предшествующую Sonnet 4.5. Особенно примечательно, что новая версия преодолевает задачи, которые ранее считались практически невозможными для автоматизированного решения. Кроме того, по данным SWE-bench Multilingual, Opus 4.5 лидирует в 7 из 8 языков программирования.
Модель улучшилась не только в коде: она также получила значительный прирост в областях компьютерного зрения, математики, рассуждений и мультимодальных задач. Аналогичные достижения зафиксированы и на других комплексных тестах, включая Aider Polyglot и BrowseComp-Plus.
Один из интересных кейсов использования показал творческий подход модели: при необходимости отказать в изменении билета класса эконом Opus 4.5 предложил легитимный обходной путь через апгрейд билета и последующее изменение рейса, что было оценено как пример «инженерного» мышления.
Opus 4.5 также отличается продвинутой безопасностью и выравниванием — модель устойчиво противостоит «prompt injection» и показывает высокую надёжность в ряде стресс-тестов по безопасности. Внутренний экзамен для кандидатов на позиции по инженерии производительности модель прошла с результатом, превосходящим исторические рекорды у людей.
Технология стала более экономной в расходовании токенов благодаря оптимизированному пайплайну рассуждений. Введён параметр «effort», позволяющий управлять глубиной анализа: на среднем уровне Opus 4.5 достигает эффективности Sonnet 4.5, расходуя на 76% меньше токенов, а на максимальном — превосходит его с меньшими затратами.
Кроме того, улучшены механизмы работы с долгоживущими агентами и многоагентными системами, что повышает продуктивность в сложных сценариях.
С выходом Opus 4.5 обновлены продукты Anthropic: Claude Code получил новый режим планирования, доступен в десктопном приложении с параллельными удалёнными сессиями, а Claude for Excel и Claude for Chrome расширили круг пользователей с дополнительным функционалом и улучшенным управлением контекстом. Лимиты на использование модели повышены, что позволяет применять её в качестве основного рабочего инструмента.
Таким образом, Claude Opus 4.5 демонстрирует значительный технологический рывок, укрепляя позиции Anthropic в области искусственного интеллекта для программирования и интеллектуальных ассистентов. Снижение стоимости и открытый доступ через крупные облачные платформы делают эту модель привлекательным выбором как для разработчиков, так и для бизнеса.
