GPT-5 Pro вышла в лидеры по решению сложных математических задач

Главное:

GPT-5 Pro от OpenAI показала лучшие результаты на самом сложном уровне математического бенчмарка FrontierMath Tier 4, решив 6 из 48 задач.
Новый лидер чуть опередил модель Gemini 2.5 Deep Think от Google, которая решила 5 задач, и превзошёл предыдущего лидера GPT-5 High с 4 решениями.
FrontierMath Tier 4 содержит задачи, требующие от профильных математиков от нескольких часов до нескольких недель на решение и представляет серьезный вызов для ИИ.

Исследователи из Epoch AI провели сравнительный анализ возможностей современных моделей искусственного интеллекта на основе сложнейшего математического бенчмарка FrontierMath Tier 4. Согласно опубликованным 11 октября 2025 года результатам, модель GPT-5 Pro от OpenAI вышла на лидирующие позиции, успешно решив 6 из 48 представленных задач. Этот показатель несколько превосходит результаты Google Gemini 2.5 Deep Think, который справился с 5 задачами, а также предшествующего лидера GPT-5 High, обладающего четырьмя решениями. Модель Grok 4 Heavy от xAI осталась позади по уровню успешных решений.

FrontierMath Tier 4 представляет собой набор из 50 сложнейших исследовательских математических задач, разработанных профессорами и постдоками и базирующихся на реальных краткосрочных научных проектах. Задачи такого уровня требуют от квалифицированных специалистов от нескольких часов до нескольких недель работы, что отражает высокую степень трудности для моделей ИИ.

GPT-5 Pro была протестирована дважды — через веб-интерфейс ChatGPT и через программный интерфейс API. В обоих случаях модель решила по 6 задач, причём в сумме было достигнуто 8 уникальных решений. Это свидетельствует об определённой нестабильности в работе модели, которая при решении сложных математических задач иногда выигрывает от повторных попыток. В числе успешно решённых задач оказалась и одна, ранее не поддававшаяся ни одной из протестированных моделей.

Хотя количество решённых задач — лишь 6 из 48 — поначалу может показаться скромным, важно понимать, что успех на FrontierMath Tier 4 означает значительный прогресс. В осенний период 2024 года лучшие модели справлялись менее чем с 2% задач на этом уровне сложности, тогда как текущий результат демонстрирует рост до 10–13%. Следует учитывать, что данные задачи сложны даже для опытных математиков, поэтому достижения ИИ в данной сфере заслуживают внимания.