Обновлённая версия GPT-5.2 прошла тест на AGI лучше человека

Главное:

Стартап Poetiq на базе GPT-5.2 X-High достиг 75% в тесте ARC-AGI-2, превзойдя человеческий средний показатель в 60%.
Poetiq использует уникальную «мета-систему» с циклом генерация → критика → уточнение для улучшения результатов ИИ без специальной доработки моделей.
ARC-AGI-2 оценивает способность ИИ осваивать новые навыки в визуальных головоломках, демонстрируя значительный прогресс по сравнению с результатами начала 2025 года.

Стартап Poetiq, основанный шестью специалистами из Google DeepMind, продемонстрировал значительный прорыв в области искусственного интеллекта, достигнув результата 75% на бенчмарке ARC-AGI-2. Это тест, разработанный исследователем Франсуа Шолле и командой ARC Prize, направленный на измерение гибкого интеллекта — способности моделей ИИ осваивать новые навыки за пределами обучающих данных. Для сравнения, средний человек набирает в этом тесте около 60%, а предыдущий лидер — обычная версия GPT-5.2 X-High — показывала результат примерно на 15 процентных пунктов ниже.

Ключевой особенностью подхода Poetiq является философия создания «мета-системы», способной оркестрировать работу уже существующих моделей ИИ без необходимости конструировать собственные. Эта система реализует цикл «генерация → критика → уточнение», при котором модель не просто отвечает на запрос, а проходит несколько итераций с самооценкой и улучшением ответа. Такой механизм самоаудита позволяет системе определять, когда ответ можно считать достаточным, обычно требуя менее двух запросов на задачу, что повышает эффективность работы.

Тест ARC-AGI-2 представляет собой комплекс визуальных головоломок с использованием цветных квадратов, где интеллектуальная система должна выявить закономерность и применить изученное правило для решения новых заданий. Впервые опубликованный в марте 2025 года, тест вначале демонстрировал низкие результаты — лучшие модели справлялись лишь с 1–4% задач. Достигнутый сейчас высокий показатель подтверждает серьезный прогресс в области создания адаптивных и обучаемых ИИ-систем.

Авторы бенчмарка ARC Prize отмечают, что 2025 год стал годом «уточняющих циклов» — ключевой движущей силой прогресса сегодня выступают не столько сами алгоритмы моделей, сколько разрабатываемые надстройки для проверки и улучшения их ответов. Работа над третьей версией теста, которая будет включать более сложные интерактивные элементы, уже ведется и обещает дальнейшее развитие в направлении комплексного искусственного интеллекта.