ARC-AGI-3: люди решают 100%, GPT-5.4 — лишь 0,26%

Главное:

ARC Prize Foundation выпустила ARC-AGI-3 — новую версию теста на общий ИИ с 135 интерактивными задачами в формате мини-игр.
Люди в тестах решают 100% сред, а лучшие модели на полуприватном наборе набрали менее 0,4%: Gemini 3.1 Pro Preview — 0,37%, GPT-5.4 — 0,26%, Opus 4.6 — 0,25%.
В официальном лидерборде учитываются только решения без дополнительных программных «подпорок»: модели получают один короткий промпт без инструкций.

ARC Prize Foundation опубликовала технический отчет по ARC-AGI-3 — третьей версии бенчмарка, который проверяет способности ИИ разбираться в новых задачах без подсказок. В отличие от прошлых версий, теперь это не статичные головоломки, а 135 интерактивных сред на сетке 64×64. Агенту нужно самому исследовать правила, понять цель и найти способ пройти уровень.

Новый тест оценивает сразу несколько качеств: как система исследует незнакомую среду, строит внутреннюю модель происходящего, формулирует цель и планирует действия. Главная метрика называется RHAE. Она учитывает не только сам факт решения, но и то, насколько эффективно модель действует по сравнению с человеком. Если человек проходит задачу за 10 шагов, а ИИ — за 100, результат будет резко штрафоваться.

Для калибровки задач фонд привлек 486 участников в Сан-Франциско. Среда попадала в итоговый набор только в том случае, если как минимум двое из десяти тестировщиков проходили ее полностью с первой попытки. По данным авторов, люди в итоге справляются со всеми средами, а медианное время прохождения составляет 7,4 минуты.

На этом фоне результаты современных моделей выглядят скромно. На полуприватном наборе Gemini 3.1 Pro Preview получила 0,37%, GPT-5.4 в режиме High — 0,26%, Opus 4.6 Max — 0,25%, а Grok-4.20 — 0,00%. Авторы объясняют переход к интерактивному формату тем, что прежние версии теста успели попасть в обучающие данные моделей, из-за чего результаты уже нельзя было считать чистой проверкой на обобщение.

Отдельно фонд оговорил правила лидерборда. В официальный рейтинг попадают только модели без «харнесса» — внешних программных инструментов, которые помогают разбирать задачу. Всем участникам дают одинаковый минимальный текст: «Вы играете в игру. Ваша цель — выиграть». Для решений с дополнительной инженерной обвязкой предусмотрено отдельное соревнование.

Контекст

ARC-AGI создали как тест на способность ИИ переносить знания на незнакомые задачи, а не воспроизводить шаблоны из обучающих данных. В ARC-AGI-3 авторы прямо указывают, что предыдущие версии бенчмарка были скомпрометированы из-за утечки в датасеты моделей.

Что это значит на практике

Высокие результаты в привычных тестах не гарантируют, что модель сможет самостоятельно разобраться в новой интерактивной задаче без подробных инструкций и внешних инструментов. Для компаний это еще и напоминание: при сравнении ИИ-систем важно смотреть, решают ли они задачу сами или опираются на специально собранную обвязку.

Источники