DeepSeek V4 выйдет до конца недели с полной мультимодальностью

Главное:

DeepSeek готовит к выпуску флагманскую модель V4, премьерный релиз которой ожидается до конца недели.
Модель будет полностью мультимодальной, способной работать с текстом, изображениями и видео, сохраняя при этом высокую эффективность в задачах программирования.
Для оптимизации аппаратной части DeepSeek отдала предпочтение китайским чипмейкерам Huawei и Cambricon, отказавшись от сотрудничества с Nvidia и AMD.

Компания DeepSeek готовится представить обновлённую версию своей флагманской модели V4. Релиз, который станет первым масштабным после января 2025 года, ожидается уже на этой неделе. Это событие привлекает внимание не только специалистов по искусственному интеллекту, но и аналитиков финансовых рынков, учитывая весомое влияние предыдущих запусков продуктов DeepSeek.

Согласно информации из финансового издания Financial Times, DeepSeek V4 будет первой по-настоящему мультимодальной моделью компании, способной не только генерировать текст, но и создавать изображения и видео. Этот подход кардинально отличается от ранее предполагавшейся узкой специализации модели на программировании и агентных возможностях. Вместе с тем, развитие функционала в сфере кода также не забыто — по данным внутренних тестов, V4 превосходит конкурентов в выполнении задач, связанных с программированием, особенно при работе с большими объёмами данных.

Архитектура модели опирается на три ключевые технологии. Первая — mHC, обеспечивающая стабильное масштабирование модели до триллионного значения параметров. Вторая — Engram, предназначенная для эффективного извлечения информации из больших контекстных окон, достигающих до миллиона токенов. Третья — обновлённый механизм DeepSeek Sparse Attention, повышающий производительность при обработке сложных запросов.

Иначе говоря, новая модель способна удерживать и эффективно использовать огромные объёмы данных в одном запросе, что уже стало частью их приложения с середины февраля — видимо, в рамках тестирования инфраструктуры V4.

Отдельного внимания заслуживает аппаратное обеспечение. Впервые DeepSeek не предоставила предрелизные версии модели NVIDIA и AMD, с которыми традиционно сотрудничала, отдавая приоритет китайским чипам от Huawei и Cambricon. Интересным парадоксом является то, что по данным Reuters, сами обучающие процессы модели осуществлялись на чипах NVIDIA Blackwell, экспорт которых в Китай официально запрещён. Представители DeepSeek и китайских производителей отказались от официальных комментариев.

Временные рамки выпуска также продуманы: релиз приурочен к началу крупнейшего политического события Китая — сессии парламента, которая стартует 4 марта. Год назад выпуск DeepSeek R1 спровоцировал внезапное падение акций NVIDIA на $600 млрд, поэтому аналитики внимательно следят за возможными последствиями выхода V4. Однако эксперты из Nomura Securities предполагают, что в этот раз масштабного рыночного шока не случится — индустрия успела адаптироваться к подобным изменениям.

Таким образом, DeepSeek V4 обещает стать заметной вехой в развитии мультизадачных моделей искусственного интеллекта, сочетая амбициозные технологические новшества и стратегические решения в области аппаратной поддержки.