Модель 30B обошла GPT-5.2 в оценке научных статей

Главное:

Исследователи из Fudan University и OpenMOSS обучили модель Scientific Judge на 700 тысячах пар статей из 2,1 млн публикаций arXiv.
Модель с 30 млрд параметров показала точность 80,6% при выборе более перспективной статьи и обошла GPT-5.2, Gemini 3 Pro и другие протестированные модели.
Вторая модель, SciThinker-30B, после дообучения на отборе идей превзошла базовую версию в 81,5% сравнений и вышла на уровень GPT-5.2.

Исследователи из Fudan University и команды OpenMOSS представили систему, которая оценивает научные статьи по их будущему потенциалу и, по данным авторов, делает это точнее ряда крупных коммерческих ИИ-моделей. Работа описывает две модели: Scientific Judge, которая сравнивает статьи между собой, и Scientific Thinker, которая предлагает новые исследовательские идеи. Результаты опубликованы в марте на arXiv.

Авторы отказались от дорогой ручной разметки и использовали цитирования как косвенный сигнал качества. Логика такая: если две статьи вышли примерно в одно время и относятся к одной области, но одну цитируют заметно чаще, значит научное сообщество посчитало ее более ценной. На этом принципе собрали 700 тысяч пар из 2,1 млн статей arXiv и обучили модель выбирать более перспективную работу только по аннотациям.

Scientific Judge с размером 30B достигла точности 80,6%. В тестах она обошла GPT-5.2, Gemini 3 Pro и другие модели, которые участвовали в сравнении. Авторы отдельно проверили, насколько хорошо подход переносится на новые данные: модель, обученная на статьях до 2024 года, смогла предсказывать цитируемость публикаций 2025 года. Кроме того, обучение на материалах по Computer Science оказалось полезным и для физики, математики и биологии.

Исследование пошло дальше простой сортировки статей. На основе той же идеи ученые построили модель Scientific Thinker, которая генерирует продолжения исследований и новые идеи. Здесь Scientific Judge использовали как внутренний механизм отбора: из нескольких вариантов она выбирала наиболее сильный, а генератор учился выдавать именно такие ответы. В прямом сравнении SciThinker-30B выигрывала у базовой версии в 81,5% случаев и показала уровень GPT-5.2.

Авторы подчеркивают, что у метода есть ограничения. Цитируемость нельзя считать точной мерой научной ценности, а качество сгенерированных идей пока не подтверждено экспериментами. Но сама работа показывает, что способность различать сильные и слабые научные результаты можно частично извлечь из накопленного опыта научного сообщества и передать модели.

Контекст

Во многих задачах ИИ уже применяют для поиска, суммаризации и анализа научных публикаций. Эта работа добавляет еще один сценарий: машинную оценку того, какие статьи и исследовательские идеи могут оказаться более значимыми.

Что это значит на практике

Для исследовательских команд и лабораторий такие модели могут стать инструментом предварительного отбора статей и гипотез перед более глубокой экспертной проверкой. Для пользователей это пример того, что небольшие специализированные модели могут конкурировать с крупными универсальными системами в узких научных задачах.

Источники