GPT-5.2 установила рекорд в сложнейшем тесте на искусственный интеллект

Главное:

OpenAI представила модель GPT-5.2, которая в ближайшее время заменит GPT-5.1 в API и ChatGPT.
GPT-5.2 установила новый рекорд в сложном тесте ARC-AGI-2, показав результат 54,2% решения задач, близкий к человеческому уровню.
Новая модель значительно улучшила показатели в бенчмарке GDPval, демонстрируя высокую эффективность в выполнении практических рабочих задач.

Компания OpenAI объявила о выпуске своей новой флагманской модели GPT-5.2, которая вскоре заменит GPT-5.1 в API и сервисе ChatGPT. Главным достижением этой версии стали результаты в бенчмарках ARC-AGI, сложных тестах, проверяющих способность искусственного интеллекта к абстрактному мышлению и переносу навыков на новые, ранее не встречавшиеся задачи.

Особое внимание заслуживают показатели в ARC-AGI-2, новейшем и более сложном из этих тестов. Модель GPT-5.2 Pro решила 54,2% предложенных задач, что немного превосходит предыдущий рекорд в 54%, принадлежавший системе Poetiq, построенной на комбинации нескольких копий Gemini 3 Pro. При этом стоит отметить, что Poetiq — специализированное решение, недоступное массовому пользователю, тогда как GPT-5.2 — общедоступная модель. Версия GPT-5.2 Thinking в режиме X-High показала 52,9% решённых задач при значительном снижении стоимости — $1,90 за задачу против $15,27 у Pro и $30,75 у Poetiq. Это свидетельствует о доступности сложных интеллектуальных задач для широкой аудитории.

Методика теста ARC-AGI предполагает, что модели сначала демонстрируют две головоломки с правильным решением, после чего требуется вывести правило и применить его для решения третьей, аналогичной, задачи. Такой механизм призван проверить абстрактное мышление, и ранее ИИ показывали значительно меньшую эффективность по сравнению с людьми (установленный человеческий уровень в ARC-AGI-2 — 66%). Результаты GPT-5.2, близкие к этому уровню, свидетельствуют о значительном прогрессе в развитии искусственного интеллекта.

Кроме того, новая версия модели продемонстрировала рост в бенчмарке GDPval — суммарная эффективность GPT-5.2 Thinking составила 70,9% по сравнению с 38,8% у GPT-5.1 Thinking. GDPval измеряет способность ИИ выполнять реальные рабочие задачи, включая создание презентаций, заполнение таблиц, написание документов и рендеринг видео. Эти задачи не считаются сложными сами по себе, однако именно этот набор навыков является важнейшей базой для широкого внедрения ИИ в профессиональную деятельность и заметного влияния на экономику.

Также OpenAI заявляет о снижении числа ошибок при обработке изображений — особенно графических интерфейсов, что до этого момента оставалось сильной стороной конкурирующей модели Gemini 3 Pro. Таким образом, разрыв в этом аспекте между этими решениями существенно сократится.

GPT-5.2 уже начала интегрироваться в ChatGPT для пользователей с подписками Plus, Pro, Business и Enterprise. Полное развертывание модели может занять несколько дней. На API установлены тарифы $1,75 за миллион входящих токенов и $14 за миллион исходящих с учетом 90%-й скидки за кэшированные токены.

Подытоживая, GPT-5.2 демонстрирует новый этап в развитии искусственного интеллекта благодаря улучшенной способности к абстрактному мышлению, эффективному выполнению прикладных задач и снижению стоимости доступа. Эти качества позволяют рассматривать данную модель как значительный шаг на пути к созданию универсального ИИ.