Китайская Qwen3-Omni-Flash сравнялась с Gemini 2.5 Pro по аудио и дешевле втрое

Главное:

Alibaba представила обновлённую мультимодальную модель Qwen3-Omni-Flash с улучшенными аудио-возможностями, которая по качеству догоняет Gemini 2.5 Pro.
Модель демонстрирует значительно более низкие ошибки распознавания речи по сравнению с конкурентами и поддерживает до 49 уникальных голосов на 10 языках.
Стоимость использования Qwen3-Omni-Flash в 3-5 раз ниже, чем у GPT-4o и Gemini 2.5 Pro, при сохранении большого контекстного окна.

Китайская компания Alibaba выпустила свежую версию своей мультимодальной модели искусственного интеллекта Qwen3-Omni-Flash, которая способна обрабатывать текст, изображения, аудио и видео, а также отвечать голосом в реальном времени. Особое внимание в обновлении уделено аудио-компоненту, где модель заметно подтянулась к уровню конкурента Gemini 2.5 Pro и превзошла GPT-4o — одного из основных голосовых ассистентов в ChatGPT.

Анализ результатов показал, что при распознавании речи (ASR) Qwen3-Omni-Flash достигает ошибки всего 2,74% для английского и 2,19% для китайского языка, что лучше, чем у Gemini 2.5 Pro (2,94% и 2,71%) и GPT-4o (3,32% и 2,44%). Особенно заметна разница при сложных задачах, таких как распознавание вокала в песнях: модель Alibaba удерживает ошибку на уровне 5,85% по сравнению с 9,85% у Gemini и 11,87% у GPT-4o.

В мультиязычных тестах на 19 языках (бенчмарк Fleurs) Qwen3-Omni-Flash опережает Gemini, уступая лишь GPT-4o. По задачам, связанным с видео — например, распознавание длинных видео и аудиовизуальных данных — новая модель также превосходит конкурентов.

Количество доступных голосов увеличилось в сравнении с предыдущей версией — теперь их 49, и каждый голос обладает уникальной характеристикой, включая возраст, тембр и манеру речи. Также расширен набор языков озвучивания до 10 и языков распознавания до 19, включив в них такие языки, как арабский, турецкий, вьетнамский и кантонский.

Кроме того, разработчики отмечают существенное улучшение в способности модели точно следовать инструкциям пользователей, благодаря чему она лучше воспринимает системные настройки и промпты.

Важным конкурентным преимуществом стал ценообразовательный фактор: использование Qwen3-Omni-Flash обходится примерно в $0,43 за миллион входных токенов и $2 за миллион выходных. Для сравнения, GPT-4o стоит около $2,50 и $10 соответственно, а Gemini 2.5 Pro занимает промежуточное положение с $1,25–2,50 и $10–15 за соответствующие операции. Таким образом, новая модель Alibaba оказывается в 3–5 раз дешевле на фоне сопоставимых возможностей.

Модель поддерживает большое контекстное окно — примерно 65 тысяч токенов при рассуждениях и 49 тысяч в обычном режиме взаимодействия. Следует отметить, что Qwen3-Omni-Flash доступен исключительно через API и облачные сервисы Alibaba, при этом открытые веса модели пока не были опубликованы.