OpenAI утверждает успех в 60% задач сложного теста ИИ, математики сомневаются

Главное:

Группа из 11 ведущих математиков разработала уникальный бенчмарк First Proof с десятью исследовательскими задачами, которые ИИ ранее не решал.
OpenAI заявила о решении 6 из 10 задач с помощью внутренней модели, которую тестировали с экспертной поддержкой, однако независимые проверки нашли лишь 2 корректных доказательства в публичных моделях.
Математическое сообщество разделилось во мнениях: некоторые ожидают скромных результатов, другие видят в этом событии начало новой эры в применении ИИ к математике.

Недавно группа из одиннадцати ведущих математиков, включая обладателя Филдсовской премии Мартина Хайрера, представила новый тест First Proof — набор из десяти оригинальных задач, которые ранее не были доступны в открытом доступе. Эти задачи представляют собой вспомогательные теоремы (леммы) из разных областей математики, требующие оригинального подхода, а не простого комбинирования известных техник. Главной целью инициативы стало проверка способности искусственного интеллекта решать задачи уровня реальных научных исследований, а не олимпиадных заданий.

14 февраля были раскрыты зашифрованные ответы, и результаты оказались неоднозначными. Организаторы бенчмарка подтвердили, что публичные модели, доступные на момент теста, смогли верно решить только две задачи из десяти. В то же время главный научный сотрудник OpenAI Якуб Пахоцки сообщил, что их внутренняя модель, опробованная с экспертной помощью и минимальным человеческим вмешательством, вероятно, решила шесть задач. Однако такой подход вызывает вопросы: правила First Proof строго запрещают человеческие подсказки, а участие экспертов ставит под сомнение, где заканчивается работа ИИ и начинается вмешательство человека. Кроме того, математики уже выявили недостатки хотя бы в одном из решений OpenAI.

Особенностью First Proof стало то, что задачи касаются различных областей математики, от алгебраической комбинаторики до стохастического анализа, и все ответы не публиковались ранее в интернете, что исключает возможность использования готовых решений в обучающих данных. При этом модели имели доступ к интернету, имитируя условия реальных научных исследований.

Помимо OpenAI, многие специалисты с разным уровнем подготовки — от профессоров до студентов — пытались решить эти задачи с помощью ИИ. Основная масса представленных решений оказалась недостоверной, несмотря на уверенный внешний вид доказательств. Интересно, что корректные решения напоминали математику XIX века, что подчёркивает разрыв между интеллектуальными методами ИИ и современными математическими подходами, по мнению профессора Стэнфорда Мохаммеда Абузаида.

Мнения экспертов разделились. Некоторые, как математик из Университета Торонто Дэниел Литт, считали два-три правильных решения от публичных моделей разумной оценкой, а полное решение всех десяти — маловероятным сценарием. Другие, например, Скотт Армстронг из Сорбонны, отмечают, что данные достижения уже меняют математическую науку и являются новым этапом в её развитии.

Команда First Proof планирует провести второй раунд тестирования с ужесточёнными правилами, подробности которого должны быть опубликованы 14 марта. Этот проект продолжает формировать новое понимание мощности и ограничений ИИ в академической математике и освещает важные вопросы доверия и прозрачности в оценке интеллектуальных технологий.