- Автор бестселлера Себастьян Рашка провёл глубокий технический анализ модели DeepSeek V3.2, которая вышла 1 декабря.
- DeepSeek V3.2 достигает результатов, сопоставимых с GPT-5 и Gemini 3.0 Pro, набирая 96% на математическом тесте AIME 2025.
- Модель использует архитектуру Mixture-of-Experts с инновацией DeepSeek Sparse Attention, обеспечивающей более эффективное масштабирование внимания.
Известный исследователь машинного обучения Себастьян Рашка опубликовал подробный технический разбор модели DeepSeek V3.2, недавно выпущенной командой разработчиков. DeepSeek продолжает динамично развиваться: после громкого дебюта версии R1 в январе, за год вышли обновления V3.1, экспериментальная V3.2-Exp и специализированная DeepSeekMath V2.
В отличие от многих закрытых моделей, DeepSeek предоставляет открытые веса, что привлекает внимание научного сообщества. Согласно анализу Рашки, версия V3.2-Speciale демонстрирует впечатляящую производительность на математическом бенчмарке AIME 2025, набрав 96%. Это позволяет считать DeepSeek конкурентом таких продвинутых моделей, как GPT-5 и Gemini 3.0 Pro.
Архитектурно DeepSeek сохранила базовый подход Mixture-of-Experts (MoE), при котором для каждого обрабатываемого токена задействуется лишь часть экспертов. Более того, применяется Multi-Head Latent Attention (MLA) — механизм сжатия ключей и значений для оптимизации KV-кэша. Главным инновационным элементом стала технология DeepSeek Sparse Attention (DSA), которая решает классическую проблему квадратичного масштабирования механизма внимания. Вместо того чтобы каждый токен «смотрел» на все предыдущие, DSA ограничивает внимание 2048 релевантными токенами, обеспечивая линейную зависимость вычислительных затрат от длины контекста.
Стоит отметить, что для обучения модели применён гибридный подход. В задачах, связанных с математикой и программированием, по-прежнему используется символьный верификатор, известный ещё с версии R1. Для других задач введён метод LLM-as-a-judge, где отдельная модель оценивает качество ответов по определённым критериям. Технология self-verification из DeepSeekMath V2 также была перенесена в текущую версию: теперь не только итоговый ответ, но и промежуточные рассуждения подвергаются проверке, поскольку команда отмечает, что правильный ответ может быть получен через ошибочную логику.
Кроме базовой версии V3.2, существует вариант Speciale, обладающий расширенным режимом «думания». Эта версия создаёт более длинные цепочки рассуждений и демонстрирует ещё более высокие результаты на различных бенчмарках.
В рамках технических улучшений команда DeepSeek вернулась к использованию чипов NVIDIA после экспериментов с оборудованием Huawei. Экспериментальная версия V3.2-Exp была выпущена для подготовки инфраструктуры инференса под изменённую архитектуру модели.
Таким образом, развитие DeepSeek свидетельствует о серьёзных успехах в создании открытых моделей ИИ, способных конкурировать с ведущими коммерческими решениями в области машинного обучения и обработки естественного языка.
