ИИ DeepMind решил задачу Эрдёша, но 68% ответов

Главное:

ИИ-агент Aletheia от DeepMind решил задачу Эрдёша-1051, одну из немногих математических проблем, полностью решённых ИИ без участия человека.
Из 212 «уверенных» ответов, которые вернул агент, только 6,5% действительно решают поставленную задачу; 68,5% оказались фундаментально ошибочными.
Главной трудностью оказалось не проверка доказательств, а поиск уже существующих решений в научной литературе, что поднимает вопросы о «подсознательном плагиате» ИИ.

Несмотря на оптимистичные заголовки, недавний эксперимент DeepMind с ИИ-агентом Aletheia выявил ряд существенных ограничений современной автоматизации в математике. С 2 по 9 декабря агент обработал 700 открытых задач из списка Эрдёша и вернул 212 потенциально верных доказательств. Однако дальнейшая проверка экспертами показала, что лишь 13 решений (примерно 6,5%) действительно соответствуют тому, что имел в виду Эрдёш. Около 31,5% ответов оказались технически корректными, но нерелевантными, а подавляющее большинство — 68,5% — были ошибочными.

Задача Эрдёша-1051, решённая агентом, посвящена доказательству иррациональности некоторых быстро сходящихся рядов и по меркам специалистов является «слегка нетривиальной» и «умеренно интересной». Это далеко не главные нерешённые проблемы математики уровня Гипотезы Римана или P vs NP, а скорее задача, которая долго оставалась без внимания из-за ограничений человеческих ресурсов.

Одной из главных проблем, с которой столкнулись учёные, стала не столько проверка самих доказательств, сколько поиск аналогичных результатов в научной литературе. Многие доказательства, возможно, уже получили, но опубликованы в малотиражных изданиях или давно забытых обзорах, что осложняет задачу. Это подчёркивает важность умения ИИ не только генерировать новые решения, но и эффективно ориентироваться в существующих знаниях, чтобы не допускать «подсознательного плагиата» — воспроизведения ранее известных результатов без правильной ссылочной базы.

Авторы исследования признают, что большинство задач, с которыми столкнулся ИИ, мог бы решить компетентный эксперт за короткое время, однако человеческие ресурсы часто заняты более приоритетными вопросами. Таким образом, Aletheia демонстрирует потенциал для автоматизации поиска и доказательств в математике, который можно использовать для сбора «низко висящих плодов» — задач, долго остававшихся без внимания.

Тем не менее, текущий уровень точности — около 6,5% по «уверенным» ответам — некритичен только при скрупулёзной проверке людьми. В будущем, при переходе ИИ к более сложным открытиям, риски публикации неверных результатов могут серьёзно возрасти, что требует внимательного контроля.

Таким образом, данный опыт наглядно показывает, что ИИ уже становится полезным инструментом в решении математических задач, помогая освободить учёных от рутинных проблем, но в то же время подчёркивает необходимость развития методов проверки и интеграции в научный процесс.