Андрей Карпати создал ИИ-исследователя, делающего 12 экспериментов в час

Главное:

Андрей Карпати, основатель Eureka Labs и один из основателей OpenAI, представил проект autoresearch — систему ИИ-исследователя, которая автономно проводит эксперименты по обучению языковых моделей.
ИИ-агент самостоятельно модифицирует код, запускает пятиминутный цикл обучения, оценивает качество и решает сохранить изменения или откатить их, достигая до 12 экспериментов в час.
Проект призван заменить традиционное написание кода исследователями на управление через Markdown-файл с инструкциями, делая обучение более автоматизированным и сопоставимым.

Известный специалист в области искусственного интеллекта Андрей Карпати, ранее возглавлявший направления ИИ в Tesla и являвшийся одним из основателей OpenAI, представил инновационный проект autoresearch. Эта система создана для автономного проведения экспериментов по обучению языковых моделей на одном GPU, что открывает новые возможности для ускорения процесса исследований в области машинного обучения.

Основная идея autoresearch заключается в том, что ИИ-агент самостоятельно изменяет программный код, запускает пятиминутный тренировочный цикл, после чего анализирует метрики качества модели. На основе полученных данных агент принимает решение о сохранении или откате изменений и повторяет эту процедуру многократно. Благодаря такой цикличности достигается производительность примерно 12 экспериментов в час и до сотни — за ночь. Весь процесс централизован вокруг единственного Python-файла train.py, в котором содержится архитектура GPT, оптимизаторы Muon и AdamW и алгоритм тренировочного цикла.

Управлять исследовательским процессом теперь предлагается не прямым написанием кода, а через редактирование файла program.md в формате Markdown. В данном файле задаются инструкции для агента: какие параметры менять, как оценивать результаты и когда следует откатывать изменения. Такой подход упрощает взаимодействие с системой и выводит исследование на новый уровень автоматизации.

Особенностью проекта является использование метрики val_bpb (биты на байт на валидации), которая позволяет объективно сравнивать результаты экспериментов независимо от размера словаря или архитектуры. Фиксированная продолжительность эксперимента в 5 минут обеспечивает сопоставимость и стабильность в оценке эффективности изменений, хотя и накладывает зависимость от производительности конкретного оборудования — в данном случае тестирование проводилось на GPU Nvidia H100.

Сам Андрей Карпати призывает рассматривать autoresearch как своеобразное соревнование: лучшие результаты достигаются теми, кто наиболее грамотно составит инструкции в program.md, что способствует быстрому прогрессу исследований. В шутливой форме он отмечает, что эпоха «мясных компьютеров», то есть людей, синхронизирующихся на совещаниях, уходит в прошлое — теперь исследовательский процесс возглавляют автономные роевые агенты.

Таким образом, autoresearch представляет собой значительный шаг в развитии автоматизированных методов исследований в области глубокого обучения, позволяя повысить эффективность экспериментов и снизить участие человека в рутинном кодировании и анализе.