Карпати создал ИИ, ускоривший обучение GPT-2 на 11%

Главное:

Андрей Карпати создал открытый ИИ-агент autoresearch для автономной оптимизации обучения нейросетей.
ИИ-агент за два дня провёл около 700 экспериментов, что позволило ускорить обучение GPT-2 на 11%.
Агент самостоятельно выполняет полный цикл исследований: анализирует код, предлагает изменения, запускает эксперименты и оценивает результаты без участия человека.

Андрей Карпати, известный эксперт в области искусственного интеллекта и бывший директор по ИИ в Tesla, а также сооснователь OpenAI, представил проект autoresearch — открытый инструмент, в котором автономный ИИ-агент берёт на себя оптимизацию процесса обучения нейросетей. За период в два дня агент провёл около 700 экспериментов с кодом проекта nanochat и обнаружил порядка 20 эффективных улучшений, которые позволили сократить время обучения модели GPT-2 с 2,02 до 1,80 часа, что составляет ускорение на 11%.

Особенностью autoresearch является полная автономность цикла работы агента: он самостоятельно читает исходный код, формулирует гипотезы, вносит изменения, запускает проверки и анализирует результаты. Среди наиболее значимых находок — исправление множителя в нормализации внимания, отсутствие регуляризации для Value Embeddings, корректировка параметров полосового внимания и оптимизатора AdamW. Интересно, что все выявленные улучшения оказались аддитивными, что позволило успешно масштабировать их от небольшой модели с глубиной 12 слоёв к более крупной с глубиной 24 слоя.

Карпати подчеркнул, что за 20 лет работы с нейросетями впервые увидел, как подобный полный цикл автоматической оптимизации выполняется без человеческого участия. Он отметил, что пока это не прорывные открытия, однако такие реальные улучшения существенно облегчают тонкую настройку моделей. Код проекта доступен под лицензией MIT и представлен в компактном виде — всего три ключевых файла.

По мнению специалиста, подобный подход обязательно станет стандартом работы ведущих лабораторий в сфере ИИ: рой автономных агентов будет оптимизировать малые модели, лучшие результаты масштабируются, а люди будут вовлекаться лишь в исключительных случаях. Андрей Карпати уже запустил второй этап экспериментов и занимается организацией нескольких агентов для параллельной работы над оптимизацией. Вдобавок он отмечает, что метод подходит для любых задач, где можно быстро измерить качество, что открывает широкие перспективы автоматизации научных открытий и инженерных улучшений.