- Экс-директор по ИИ в Tesla Андрей Карпати обучил модель, превосходящую GPT-2 по бенчмарку CORE, всего за $73 и 3 часа.
- В 2019 году тренировка оригинальной GPT-2 стоила около $43 000 и занимала неделю на 32 TPU v3.
- Снижение стоимости обучения модели в 600 раз стало возможным благодаря улучшениям в аппаратном обеспечении, программном обеспечении, алгоритмах и качестве данных.
Андрей Карпати, бывший директор по искусственному интеллекту в компании Tesla, успешно воспроизвёл и улучшил модель GPT-2, затратив на её обучение всего $73 и три часа работы одного из восьми GPU NVIDIA H100. Для сравнения, обучение оригинальной модели GPT-2 в 2019 году требовало использования 32 чипов TPU v3 в течение недели и стоило примерно $43 000.
Такое значительное снижение стоимости — более чем в 600 раз — стало результатом комплексных усовершенствований на всех уровнях. Среди них ускоренное аппаратное обеспечение (GPU H100 вместо TPU v3), оптимизации программного обеспечения с использованием технологий Flash Attention 3 и torch.compile, а также внедрение новых алгоритмических решений, таких как оптимизатор Muon и техника скользящего окна внимания. Дополнительным фактором стали более качественные обучающие данные, представленные в наборе FineWeb-edu.
Сам проект nanochat, созданный Карпати, занимает около 1000 строк кода. Модель содержит 768 млн параметров и 24 слоя, в ней применены современные архитектурные решения, включая позиционные эмбеддинги RoPE, нормализацию RMSNorm и Q/K, а также активацию ReLU² и отдельные эмбеддинги и анэмбеддинги.
Чтобы стимулировать развитие и соревновательный дух, Карпати создал лидерборд, на котором участники состязаются в скорости обучения моделей до уровня GPT-2 на восьми GPU H100. Текущий рекорд составляет 3,04 часа, что значительно быстрее времени, потребовавшегося на обучение оригинальной GPT-2 в OpenAI.
Таким образом, продвижение в аппаратном и программном обеспечении, а также методические инновации позволяют значительно удешевить и ускорить обучение сложных моделей искусственного интеллекта. Пример Карпати демонстрирует, насколько быстро развиваются технологии, делая их доступнее для широкого круга исследователей и разработчиков.
