- Представлена экспериментальная модель DeepSeek-V3.2-Exp с новой схемой разреженного внимания (DSA).
- DSA позволяет существенно снизить стоимость и время обработки длинных текстов за счет выбора только важных позиций в контексте.
- DeepSeek-V3.2-Exp демонстрирует схожее качество с предыдущей версией, но работает в несколько раз дешевле.
Недавно была представлена экспериментальная версия модели DeepSeek-V3.2-Exp, разработанная с использованием новой технологии разреженного внимания (Dynamic Sparse Attention, DSA). Эта инновационная схема фокусируется исключительно на наиболее значимых позициях в длинных текстах, что позволяет считать полное внимание только по ним. Благодаря этому время и затраты на обработку растут практически линейно относительно числа выбранных токенов, а не квадратично от общей длины контекста.
Такой подход существенно снижает стоимость работы с длинными текстами, не ухудшая при этом качество ответов модели. В сравнении с предыдущей версией DeepSeek-V3.1-Terminus, новая модель показывает близкие показатели по качеству, при этом становится заметно выгоднее с финансовой точки зрения. В частности, в API стоимость входящих данных при попадании в кэш снизилась с $0,07 до $0,028 за миллион токенов, а при промахе — с $0,56 до $0,28. Аналогично снижены и затраты на вывод модели, которые составляют теперь $0,42 вместо $1,68 за миллион токенов.
DeepSeek-V3.2-Exp уже доступна для использования через веб-версию, мобильные приложения, API, а также на платформе Hugging Face. При этом пользование веб-приложением остаётся бесплатным.