DeepSeek V4 могут представить в январе — обучение на чипах Blackwell Обложка: Skyread

DeepSeek V4 могут представить в январе — обучение на чипах Blackwell

Новости
Главное:

  • DeepSeek использует запрещённые к экспорту в Китай чипы Nvidia Blackwell, ввезённые контрабандой через страны с разрешённым экспортом.
  • Планируется выпустить новую модель DeepSeek V4 (или R2) к китайскому Новому году — концу января, однако основатель компании отдаёт приоритет качеству над сроками.
  • Архитектура DeepSeek Sparse Attention позволит существенно снизить затраты на запуск моделей, а чипы Blackwell существенно превосходят предыдущее поколение по производительности.

По информации издания The Information, компания DeepSeek задействует несколько тысяч новейших графических процессоров Nvidia Blackwell для разработки своей следующей модели искусственного интеллекта — DeepSeek V4 (в прежнем варианте именования — R2). Особенностью ситуации является тот факт, что данные чипы запрещено экспортировать в Китай. Чтобы обойти эти ограничения, оборудование сначала поставляют на дата-центры в странах с разрешённым экспортом, где серверы разбирают, после чего компоненты нелегально транспортируют в Китай по частям.

Запуск новой версии модели планируется к концу января, в преддверии китайского Нового года, однако основатель DeepSeek, Лян Вэньфэн, не устанавливает жёстких дедлайнов, предпочитая сосредоточиться на качестве продукта. Ранее, в сентябре, была выпущена экспериментальная модель V3.2-Exp, которую компания рассматривает как промежуточный этап на пути к многочисленному поколению ИИ. Несмотря на это, перенос новых подходов на масштабные модели происходит постепенно.

Ключевая инновация, на которой строится DeepSeek V4, — архитектура DeepSeek Sparse Attention (DSA). Её задача — заметно снизить затраты на запуск и эксплуатацию моделей за счёт разреженных вычислений. Собрано, что чипы Blackwell, особенно модель B200, идеально подходят для таких задач: они ускоряют операции DSA примерно вдвое по сравнению с предыдущими версиями и обеспечивают производительность на этапах инференса до 2,5 раз выше, чем предшествующая серия Nvidia H200.

В то же время, несмотря на то что бывший президент США Дональд Трамп недавно разрешил продажу чипов H200 в Китай с налогом около 25% в пользу США, доступ к этим процессорам для китайских компаний будет ограничен и со стороны Пекина. Местные власти намерены мотивировать отечественных заказчиков отдавать предпочтение продукции Huawei и других локальных производителей, требуя от компаний доказывать недостаток собственных чипов для использования зарубежных решений.

В сложившихся условиях китайским компаниям, занимающимся искусственным интеллектом, приходится работать с неидеальным набором оборудования: устаревшими запасами Nvidia, собственными локальными чипами, либо организовывать тренировку моделей за рубежом. Нелегальная поставка Blackwell продемонстрирует возможность адаптации китайской ИИ-индустрии к мировым ограничениям и санкциям на экспорт передовых технологий.

Tagged