ИИ, решивший хотя бы одну задачу, войдет в историю: FrontierMath

Главное:

Запущен новый бенчмарк FrontierMath: Open Problems с неразрешёнными математическими задачами.
В бенчмарке 14 задач из различных областей математики, над некоторыми бьются по несколько десятков специалистов.
Автоматическая верификация решений позволит проверить ответы даже без предварительно известных решений.

Исследовательская команда Epoch AI представила инновационный бенчмарк FrontierMath: Open Problems — платформу, на которой собраны математические задачи, не решённые до сих пор ни людьми, ни искусственным интеллектом. В отличие от стандартных тестов, где используются известные задачи с известными ответами, FrontierMath ставит перед алгоритмами и специалистами настоящие вызовы из современных исследований.

Пилотная версия включает 14 проблем, охватывающих широкий спектр математических направлений — от теории чисел до топологии. Каждая из задач разрабатывалась профессиональными математиками на основе их самых свежих научных исследований. Некоторые из них являются настолько сложными, что от нескольких до сотни экспертов безуспешно работали над ними в течение длительного времени. По оценке авторов, даже наиболее опытным специалистам понадобится от недель до лет, чтобы добиться хотя бы 50% вероятности верного решения.

Современные модели искусственного интеллекта, такие как GPT-5.2 Pro и Gemini 3 Deep Think, уже были протестированы на этом бенчмарке через веб-интерфейс. Они хорошо справляются с «разминочными» задачами, где решения известны, но на открытых проблемах демонстрируют ограниченные способности — чаще всего прибегают к перебору возможных вариантов вместо концептуального анализа или вовсе признают задачу нерешённой.

Особенностью FrontierMath является автоматизированная система верификации решений. Несмотря на то что ответы на большинство задач неизвестны, валидаторы программно проверяют корректность предоставленных решений. Например, если речь идёт о поиске многочлена с заданными свойствами, система подтверждает соответствие результата требованиям задачи. Доступ к этим верификаторам предоставляется на платной основе: полученные средства будут инвестированы в расширение коллекции задач и развитие платформы.

Авторы бенчмарка подчёркивают, что решение хотя бы одной задачи станет значительным вкладом в математику. Значимость каждой проблемы ими заранее оценена — от умеренного интереса для исследовательского сообщества до потенциального прорыва. Успешно разрешённые задачи будут публиковаться и удаляться из набора, чтобы предотвратить возможность их решения через простое нахождение ответа в интернете.

Таким образом, FrontierMath: Open Problems представляет собой важный шаг в развитии искусственного интеллекта и его применения в научной математике. Он объединяет усилия людей и машин, направленные на решение сложнейших интеллектуальных вызовов современности.