GPT-5-Pro возглавила рейтинг в престижном ИИ-бенчмарке

Главное:

Модель GPT-5-Pro достигла результата 18,3% в сложном ИИ-бенчмарке ARC-AGI-2, установив новый рекорд среди моделей.
Для сравнения, предыдущий лидер Grok 4 показал 15,9%, а «человеческий» уровень в этом тесте начинается от 85%.
Исследователи Джереми Берман и Эрик Панг улучшили результаты Grok 4, достигнув 29,4% и 26,0% соответственно, применяя оригинальные методы решения задач.

Экспертное сообщество в области искусственного интеллекта зафиксировало значимое событие: модель GPT-5-Pro взяла верх в крайне требовательном бенчмарке ARC-AGI-2 с показателем 18,3%. Этот тест, разработанный как «Корпус абстракции и рассуждения» (ARC), ставит перед ИИ задачи, где требуется выявлять и применять сложные логические правила без предварительной подготовки на подобных примерах.

По сути, ARC-AGI-2 проверяет способность системы обобщать и синтезировать новые знания в условиях ограниченной информации, что является одним из ключевых вызовов для современных моделей. При этом GPT-5-Pro превзошла предыдущего лидера Grok 4, результат которого составил 15,9%. Однако до «человеческого» уровня производительности, который отмечен здесь минимум в 85%, искусственный интеллект остается значительно далёк.

Значимый вклад в развитие подходов показали и независимые исследователи. Джереми Берман, применяя многоагентный эволюционный алгоритм, сумел поднять результат до 29,4%. Его метод заключался в том, что несколько «агентов» одновременно генерировали и тестировали гипотезы, а лучшие из них объединялись и совершенствовались. Эрик Панг предложил другой путь — синтез небольших программ на основе растущей библиотеки элементов, что дало 26,0%.

Эти достижения демонстрируют, что за пределами прямого улучшения моделей, инновационные методы обработки и генерации решений могут существенно изменить эффективность искусственного интеллекта в задачах абстрактного мышления и рассуждений. Однако в целом итоговые показатели показывают, что в данный момент подобные системы ещё не достигли уровня гибкости и креативности человеческого интеллекта.

Тем не менее, стабильный рост результатов в ARC-AGI-2 свидетельствует о перспективах дальнейшего развития технологий и увеличения вычислительных мощностей, которые могут приблизить искусственный интеллект к реальному пониманию и обобщению знаний на ходу.