GPT-5.1 Thinking стала лидером в одном из самых сложных ИИ-тестов

Главное:

Модель GPT-5.1 Thinking заняла первое место в бенчмарках ARC-AGI-1 и ARC-AGI-2, оценивающих способность ИИ к абстрактному мышлению и решению новых задач.
В ARC-AGI-1 GPT-5.1 достигла результата 72,8%, близкого к человеческому уровню, а в более сложном ARC-AGI-2 — 17,6%, превысив показатели предыдущих моделей.
Несмотря на прогресс GPT-5.1, до уровня человека в ARC-AGI-2 (66%) ещё далеко, а профессиональные модели и исследовательские сборки показывают лучшие результаты за счёт сложных подходов.

Компания разработчиков искусственного интеллекта представила обновлённую модель GPT-5.1 Thinking, которая продемонстрировала значительные успехи на двух наиболее сложных и значимых бенчмарках, предназначенных для оценки способностей ИИ к абстрактному мышлению и решению задач нового типа.

Бенчмарки ARC-AGI-1 и ARC-AGI-2 представляют собой тесты, в которых модели показывают пару наборов цветных табличек с изменениями в состоянии «было» и «стало». На основании этих изменений ИИ должен вывести правило и применить его к новым задачам. Например, если в нескольких столбиках разной высоты в «стало» исчез самый высокий столбик, то модель предполагает сделать аналогичное действие в новом примере. Задачи такого рода довольно просты для человека, однако для искусственных интеллектов они сопряжены с серьёзными трудностями в переносе знаний и навыков.

В ARC-AGI-1, который был запущен в 2019 году и уже достаточно изучен исследователями, GPT-5.1 показала 72,8% правильных ответов. Это близко к человеческому уровню решения этих задач, хотя стоит учитывать, что модели могли быть адаптированы под этот бенчмарк, учитывая длительное время его существования и доступность анализа его задач.

В более новом и сложном ARC-AGI-2, стартовавшем в 2025 году и включающем большее количество и более разнообразные задачи, модель GPT-5.1 продемонстрировала результат 17,6%. Это выше показателей предыдущих лидеров — Grok 4 (16%) и GPT-5 (9,9%). Однако уровень человеческого решения в ARC-AGI-2 оценивается в 66%, что указывает на значительный резерв для дальнейшего развития.

Интересно, что результаты относятся к массовым версиям моделей. Профессиональные варианты, такие как GPT-5 Pro, Grok 4 Heavy и инструменты исследователей, использующие параллельные вычисления и объединение решений, могут показывать более высокие результаты, что подчёркивает важность комплексного подхода к развитию искусственного интеллекта.

Таким образом, GPT-5.1 Thinking отметилась серьёзным прогрессом в области абстрактного мышления и способностях к решению принципиально новых задач, отражая тенденцию к постоянному совершенствованию алгоритмов и моделей ИИ. Тем не менее, до человеческого уровня восприятия и умозаключений пока остаётся значительный путь.