DeepSeek обучила свою модель R1 всего за 294 тысячи долларов

Главное:

Китайская компания DeepSeek сообщила о том, что обучение её модели R1 обошлось всего в $294 тыс.
Для обучения были использованы 512 ускорителей Nvidia H800, при этом DeepSeek впервые подтвердила владение и применяла ускорители A100.
Компания отвергает обвинения в копировании моделей OpenAI, поясняя, что использовала технологии дистиллирования и открытые модели, что снижает затраты и делает ИИ более доступным.

Китайская компания DeepSeek продемонстрировала значительный прогресс в сфере искусственного интеллекта, сообщил источник в Nature. Компания потратила на обучение своей модели R1 около $294 тыс., что значительно меньше заявленных американскими конкурентами затрат, достигающих десятков миллионов долларов. Для этого DeepSeek применила вычислительные ресурсы с 512 ускорителями Nvidia H800, специально разработанными для китайского рынка. При этом впервые признана также принадлежность и использование ускорителей A100 «для подготовки к экспериментам с меньшей моделью», что подчеркивает комплексный подход компании к оптимизации процессов обучения.

Релиз модели R1 состоялся в январе текущего года и оказал заметное влияние на рынок технологий искусственного интеллекта: инвесторы снизили свою активность в технологическом секторе, а капитализация таких лидеров, как Nvidia, ощутила значительную коррекцию. За время с релиза DeepSeek выпустила несколько обновлений, усилив функциональность и производительность модели.

Расходы на обучение ИИ традиционно связаны с необходимостью использования мощных вычислительных кластеров, работающих длительное время с большими объемами данных, включая текст и программный код. Для оптимизации затрат DeepSeek применяет метод дистиллирования моделей, что позволяет сократить их размер и уменьшить потребление ресурсов без существенного снижения качества. Это вызывает споры: американские представители обвинили компанию в использовании базовых наработок OpenAI, однако в своей публикации DeepSeek аргументировала, что дистиллирование способствует более доступному и демократичному развитию технологий ИИ, а возможное косвенное использование знаний из других моделей произошло случайно.

Также известно, что DeepSeek использовала открытый исходный код Llama AI от компании Meta при создании некоторых усовершенствованных версий своих моделей, что подчеркивает открытость и адаптивность в использовании существующих решений на рынке. При этом Meta официально признана экстремистской организацией в России, и её деятельность запрещена на территории страны.

Таким образом, DeepSeek демонстрирует умелое сочетание технологической самостоятельности с использованием доступных открытых ресурсов и инновационных методик, что позволяет ей выйти на мировой рынок ИИ с конкурентоспособными решениями при значительно меньших затратах на вычислительные ресурсы. Это может стимулировать дальнейшие изменения в отрасли и создать новые вызовы для устоявшихся игроков.