Искусственный интеллект Opus 4.5 от Anthropic возглавил рейтинг теста

Главное:

Модель Claude Opus 4.5 от Anthropic стала лидером в новом тесте на абстрактное мышление ARC-AGI-2.
Opus 4.5 достиг результата 37,64%, превзойдя предыдущего лидера Gemini 3 Pro (около 31%), однако до человеческого уровня (66%) еще далек.
Модель демонстрирует высокую эффективность и при этом существенно снижена стоимость её использования через API.

Компания Anthropic представила обновленную версию своей флагманской модели Claude Opus 4.5, которая успешно прошла комплексный тест ARC-AGI-2, направленный на оценку уровня абстрактного мышления и переноса знаний в новых условиях. Данный тест включает в себя решение визуальных головоломок, где модели необходимо выявить скрытые закономерности и применить усвоенные правила к ранее не встречавшимся задачам, что отражает важный навык адаптивного интеллекта.

Результаты показали, что Opus 4.5 набрала 37,64% в этом сложном бенчмарке, значительно опередив предыдущего лидера — модель Gemini 3 Pro от Google с приблизительно 31%. Тем не менее, до человеческого уровня производительности, оценённого на 66%, системе Anthropic остается расти. Стоит подчеркнуть, что ARC-AGI-2 считается более надежным тестом, поскольку задачи в нем тщательнее защищены от возможного «дообучения» моделей, что гарантирует объективность и свежесть проверки.

Кроме того, Opus 4.5 демонстрирует преимущество и по другим показателям. Она превосходит конкурентов от таких крупных игроков, как Google и OpenAI, в различных бенчмарках, включая SWE-Bench Verified, который широко признан в области программирования. Важным нововведением стала значительная оптимизация стоимости использования модели: цена доступа через API снижена в три раза — до 5 долларов за миллион входных токенов и 25 долларов за миллион выходных. Это делает Opus 4.5 не только мощным, но и экономически привлекательным выбором для разработчиков и исследователей.

Новая версия модели также показывает повышенную эффективность в использовании токенов при решении сложных задач, что дополнительно уменьшает финансовые затраты на ее эксплуатацию по сравнению с предшественницей Claude Sonnet 4.5.

По мнению экспертов, успехи Claude Opus 4.5 служат свидетельством существенного прогресса в разработке интеллектуальных систем, способных к более гибкому мышлению и адаптации к изменяющимся условиям, что критически важно для создания будущих продвинутых агентов с широким спектром применения.