Claude Opus 4.6 превзошел человека в тесте на AGI — и это лишь начало

Главное:

Модель Claude Opus 4.6 впервые превзошла средний человеческий уровень на тесте ARC-AGI-2, набрав 68,8%.
ARC-AGI-2 — бенчмарк, оценивающий способность ИИ к абстрактному мышлению с помощью уникальных визуальных головоломок.
Несмотря на успех Opus 4.6, приз в $700 тысяч за 85% точности по-прежнему не востребован, а в 2026 году планируется запуск усовершенствованного теста ARC-AGI-3.

Новая модель искусственного интеллекта Claude Opus версии 4.6 компании Anthropic достигла значительного прогресса в сфере абстрактного мышления. На недавно разработанном бенчмарке ARC-AGI-2 модель набрала 68,8%, превзойдя средний показатель человеческой панели в 60%. Этот тест представляет собой комплекс уникальных визуальных головоломок, где алгоритм должен выявить скрытые правила и применить их для решения новых задач, что требует обобщения, а не просто запоминания ответов.

ARC-AGI-2 был создан Франсуа Шолле, основателем Keras, и запущен в марте 2025 года. Уникальность теста заключается в невозможности заранее подготовиться к конкретным заданиям, так как они постоянно меняются. Опус 4.6 проходил испытания с фиксированным «бюджетом мышления» в 120 тысяч токенов для внутренних рассуждений, что показало стабильный результат в промежутке от 63% до 68,8%. Для сравнения, предыдущая версия Opus 4.5 при бюджете 64 тысячи токенов набирала лишь 37,6%.

На фоне других популярных моделей ИИ результаты Opus 4.6 выглядят конкурентоспособно: GPT-5.2 Pro от OpenAI демонстрирует 54,2%, а более дорогие варианты GPT-5.2 достигают чуть более 52%. Некоторые улучшенные системы, например GPT-5.2 с рефайнментом от стартапа Poetiq, набирают около 72%, но это достигается за счёт многократных циклов уточнения и проверки генераций, что существенно удорожает обработку и усложняет архитектуру.

Таким образом, Opus 4.6 стала первой коммерческой моделью, которая смогла превзойти базовый уровень человека на ARC-AGI-2 без сторонних систем уточнения, что представляет собой важный этап в развитии искусственного интеллекта. Однако разработчики ARC-AGI не считают эту веху окончательной победой: приз в 700 тысяч долларов за достижение 85% точности при стоимости решения в $0,42 за задачу всё ещё недосягаем.

Команда ARC Prize отмечала в последнем отчёте, что 2025-й год стал «годом циклов уточнения» — когда основное препятствие переместилось с точности на эффективность алгоритмов. В начале 2026 года ожидается запуск следующей версии теста ARC-AGI-3, которая существенно усложнит задачи, предложив интерактивные среды с необходимостью исследования, планирования и использования памяти. Это позволит более всесторонне оценить способности ИИ к общему интеллекту и принятию сложных решений.