- Французский стартап Mistral представил Small 4 — универсальную мультимодальную модель с рассуждениями.
- Модель построена на архитектуре Mixture of Experts с 119 млрд параметров и контекстным окном в 256k токенов.
- Small 4 выпускается под лицензией Apache 2.0 и существенно превосходит предшественницу по скорости и эффективности.
Французский стартап Mistral анонсировал выпуск модели Small 4, которая впервые объединяет функции чата, рассуждений и мультимодальности в одном продукте. Ранее для подобных функциональностей требовалось выбирать между несколькими отдельными моделями — Magistral, Pixtral и Devstral, но теперь все возможности доступны в едином решении.
Архитектурно Small 4 построена по принципу Mixture of Experts (MoE): количество экспертов достигает 128, при этом на каждый токен активны только 4 из них. Модель содержит 119 миллиардов параметров, однако в обработке каждого токена задействуется около 6 миллиардов параметров. Это позволяет эффективно сочетать масштабность и производительность. Примечательно, что контекстное окно модели расширено до 256 тысяч токенов, что значительно превышает возможности большинства аналогов.
Ключевая инновация Small 4 — параметр reasoning_effort, который регулирует степень включения рассуждений в генерацию ответов. Если установить значение «none», модель работает как традиционный чат-бот с быстрыми ответами. При выставлении «high» Small 4 активирует пошаговое рассуждение, что позволяет эффективно справляться со сложными задачами. По данным бенчмарков, при максимальном уровне рассуждений эта модель достигает или превосходит по качеству GPT-OSS с 120 миллиардами параметров, при этом генерируя ответы в 3-4 раза короче и, соответственно, экономя ресурсы.
По показателям производительности Small 4 демонстрирует снижение задержки на 40% и увеличение пропускной способности в три раза по сравнению с предшествующей версией Small 3. Для запуска модели минимально необходимо использовать оборудование с четырьмя видеокартами NVIDIA HGX H100.
Small 4 доступна под открытой лицензией Apache 2.0 и размещена на платформе Hugging Face. Модель совместима с такими фреймворками, как vLLM, llama.cpp, SGLang и Transformers, что облегчает интеграцию и использование в различных проектах.
