Представлена Qwen3-Omni — новая омнимодальная базовая модель Обложка: aiSkyread

Представлена Qwen3-Omni — новая омнимодальная базовая модель

Новости
Главное:

  • Выпущена Qwen3-Omni — многоязычная омни-модель с изначальной поддержкой текста, изображений, аудио и видео.
  • Модель демонстрирует лучшие на сегодня результаты в 32 из 36 аудио- и аудиовизуальных тестов, превосходя конкурентов типа Gemini-2.5-Pro и GPT-4o-Transcribe.
  • Qwen3-Omni обеспечивает потоковую генерацию как текста, так и речи с минимальной задержкой и высокими возможностями персонализации.

Команда разработчиков анонсировала выход Qwen3-Omni — инновационной омни-модальной базовой модели искусственного интеллекта, изначально обученной работать с разными типами данных: текстом, изображениями, аудио и видео. Такой подход позволяет ей эффективно обрабатывать мультиформатные данные без потери в качестве работы с отдельными модальностями.

Qwen3-Omni построена на архитектуре Thinker-Talker, где Thinker отвечает за генерацию текста, а Talker — за непрерывную синтезированную речь, позволяя обеспечивать токенизацию и синтез звука в режиме реального времени с задержкой всего в несколько сотен миллисекунд. Это достигается рядом технических инноваций, включая многокодовые авторегрессионные схемы и высокоэффективные аудиоэнкодеры (AuT), тренированные на огромных объемах данных.

Отдельно стоит выделить способность модели к поддержке 119 языков для текстового ввода, распознавание речи на 19 языках и генерацию голосовых ответов на 10 языках. Такие показатели делают Qwen3-Omni универсальным решением для задач с мультиязычным контентом. Система также поддерживает настройку стиля и поведения с помощью промптов, что расширяет возможности персонализации взаимодействия.

По результатам тестирования на 36 аудио- и аудиовизуальных бенчмарках Qwen3-Omni заняла лидирующие позиции в 32 из них, обойдя ряд мощных закрытых моделей, включая Gemini-2.5-Pro и GPT-4o-Transcribe. Это свидетельствует о высоком уровне производительности и конкурентоспособности в области машинного обучения и обработки мультимедийных данных.

Ключевым преимуществом модели стало раннее совмещение одномодальных и кросс-модальных данных при предобучении, что минимизирует деградацию качества между различными типами контента и усиливает кросс-модальные взаимосвязи.

Дополнительно Qwen3-Omni поддерживает вызов внешних функций и инструментов, что облегчает интеграцию в разные прикладные решения и сервисы. Открытый аудиокапшенер Qwen3-Omni-30B-A3B-Captioner, представленный в рамках проекта, служит надежным и устойчивым к ошибкам инструментом генерации описаний аудио для сообщества разработчиков.

Таким образом, Qwen3-Omni становится заметным шагом вперед в создании универсальных базовых моделей, способных одновременно справляться с задачами разнообразных форматов и языков, сохраняя высокую производительность и обеспечивая гибкие возможности кастомизации. Это делает её интересным решением для развития приложений в области искусственного интеллекта с мультимодальными интерфейсами.

Tagged