Создатель теста на AGI раскрыл настоящую цель своего бенчмарка

Главное:

Создатель бенчмарка ARC-AGI-2 Франсуа Шолле разъяснил истинную цель теста как ориентира, а не порога для определения AGI.
По его словам, ARC-AGI-3, запланированный на март 2026 года, будет проверять автономное интерактивное рассуждение в неизвестной среде.
Результаты Poetiq с GPT-5.2 X-High (75%) превышают средний человеческий показатель (60%), но не говорят о полном достижении AGI.

Франсуа Шолле, автор известного бенчмарка ARC-AGI, прокомментировал широкую реакцию на недавние успехи стартапа Poetiq, который с использованием доработанной GPT-5.2 X-High показал результат в 75% на ARC-AGI-2 – значительно выше среднего человеческого результата в 60%. В своей серии сообщений он подчеркнул, что текущее тестирование не стоит воспринимать как окончательное доказательство достижения искусственного общего интеллекта (AGI). Вместо этого бенчмарки служат ориентиром, который помогает научному сообществу сосредоточиться на правильных вопросах в развитии ИИ.

Первые версии ARC-AGI, начиная с 2019 года, были призваны проверять так называемый «подвижный интеллект» – способность систем адаптироваться к новым и непредсказуемым задачам. Шолле отметил, что это потребовало отхода от классической схемы масштабирования предобучения и перехода к динамическим моделям, которые учатся адаптироваться в процессе работы, что стало возможным благодаря развитию рассуждающих моделей. ARC-AGI-2 значительно усложнил проверяемые задачи, сочетая несколько правил, но при этом эти задания для обычного человека остаются решаемыми за несколько минут без посторонних инструментов, что говорит о том, что тест точно не фиксирует верхний лимит человеческого интеллекта.

Главным анонсом со стороны Шолле стал запуск ARC-AGI-3, намеченный на март 2026 года. Эта версия изменит формат тестирования, перейдя от статичных головоломок к интерактивному процессу: система должна будет сама взаимодействовать с интерфейсом, исследовать новую среду, моделировать её, выбирать цели и реализовывать их без внешних указаний. Такой подход призван дать более точное понимание уровней автономности и рассудительности ИИ, создавая более сложную и реалистичную оценку возможностей машинного интеллекта.

Кроме этого, команда автора уже приступила к разработке последующих версий – ARC-AGI-4 и ARC-AGI-5, что свидетельствует о долгосрочной перспективе развития данного направления. Шолле акцентирует внимание на том, что высокий результат по текущим тестам – лишь один из этапов, а настоящий прогресс в направлении AGI будет оцениваться по способности систем самостоятельно ставить цели и действовать в сложно структурированных и незнакомых условиях.

Таким образом, комментарии Франсуа Шолле в очередной раз подчёркивают, что достижения в области ИИ, порой воспринимаемые как финальная точка, на самом деле открывают новые горизонты для исследований, а бенчмарки ARC-AGI – это инструменты, формирующие дальнейшее развитие искусственного интеллекта, а не окончательные критерии его определения.