Математик придумал задачу, которую решил GPT-5.4, а ИИ

Главное:

Польский математик Бартош Наскрэнцки создал сложнейшую математическую задачу, считавшуюся нерешаемой для ИИ.
Модель GPT-5.4 смогла решить эту задачу с 11-й попытки, продемонстрировав качественный прорыв в математическом мышлении ИИ.
Результат показывает развитие возможностей ИИ в решении исследовательских математических задач, хотя стабильность таких решений пока остаётся ограниченной.

Польский математик и вице-декан факультета математики и информатики Познаньского университета имени Адама Мицкевича Бартош Наскрэнцки ещё летом 2025 года характеризовал искусственный интеллект как продвинутый калькулятор, неспособный вести глубокое математическое рассуждение. Для проверки уровня современных ИИ-моделей он создал в рамках бенчмарка FrontierMath от Epoch AI особо сложную задачу высшего уровня сложности (Tier 4), объединяющую теорию Галуа, алгебраическую геометрию и арифметику. Задача была тщательно протестирована и специально усложнена так, чтобы ни одна из существующих моделей, включая o4-mini-high, не могла её решить.

Однако новейшая версия модели GPT, 5.4, в режиме xhigh смогла-таки найти решение. После 10 безуспешных попыток, каждая из которых шла своим нестандартным путём, на 11-й попытке модель открыла закономерность связи арифметики и геометрии в задаче, применив изящный приём суммирования. Этот ход позволил обойти сложнейший математический аппарат, что было отмечено самим Наскрэнцки как «хорошая математика, написанная чисто». Он оценил общий объём вычислений в 5–15 миллионов токенов, что эквивалентно многочасовой исследовательской работе. Данный опыт учёный сравнил с известным «ходом 37» AlphaGo — знаковым прорывом в применении ИИ.

Бартош Наскрэнцки опубликовал подробный анализ всех одиннадцати попыток решения задачи под названием «Анализ производительности повторных попыток LLM на исследовательской математической задаче» и подчеркнул, что достижение решения лишь в одном случае из одиннадцати свидетельствует о хрупкой грани возможностей, а не стабильной способности моделей. Тем не менее, ранние признаки прорыва обычно сигнализируют о наличии качественного сдвига, который со временем закрепляется в будущих версиях моделей. В тот же день математик использовал GPT-5.4 для работы над другой идеей, и ИИ сумел найти контрпример, на что у человека могли уйти месяцы.

Для бенчмарка FrontierMath прогресс впечатляет: в конце 2024 года лучшие модели решали менее 2% задач, а сейчас GPT-5.4 Pro демонстрирует успехи в 50% на уровнях 1–3 и 38% на Tier 4, почти вдвое превосходя GPT-5.2, выпущенную несколько месяцев ранее. Из 48 задач высшего уровня 42% были решены хотя бы однажды. Но по-прежнему не удаётся справиться с новаторскими задачами FrontierMath: Open Problems, которые никто не решил.

Отметим важный нюанс: проект FrontierMath финансируется OpenAI, которая имеет эксклюзивный доступ к основной базе задач и решений. Однако сложная задача Наскрэнцки принадлжит другому провайдеру — Epoch AI, и OpenAI не могла использовать её решение для обучения. Ещё интересный факт — в одной из задач Tier 4 GPT-5.4 обнаружила и применила препринт, опубликованный в 2011 году, о котором не знал даже сам автор, что свидетельствует о способности ИИ вести глубокий научный «археологический» поиск, превосходящий традиционные человеческие возможности.

Таким образом, недавний успех GPT-5.4 в решении крайне сложной задачи — важный индикатор стремительного развития искусственного интеллекта в области исследовательской математики, открывающий новые горизонты для сотрудничества человека и машины в научной деятельности.