- Китайская компания Baidu представила мультимодальную модель ERNIE 5.0 с 2,4 триллиона параметров, превосходящую по некоторым показателям такие модели, как GPT-5 и Gemini 3.
- ERNIE 5.0 способна работать с текстом, изображениями, аудио и видео в единой архитектуре и доступна бесплатно через чат-бот ERNIE Bot.
- Модель демонстрирует лучшие результаты в области аудиоанализа и понимания документов и графиков, при этом предлагается бюджетный API-доступ через платформу Qianfan.
Компания Baidu анонсировала выпуск ERNIE 5.0 — новой мультимодальной модели искусственного интеллекта, которая характеризуется впечатляющим масштабом в 2,4 триллиона параметров. Важной особенностью ERNIE 5.0 является единственная архитектура, способная одновременно обрабатывать текст, изображения, аудио и видео, что отличает её от многих соперников, использующих отдельные энкодеры для разных типов данных. По заявлениям разработчиков, по ряду бенчмарков модель демонстрирует сопоставимые или превосходящие западные аналоги результаты, в частности, с GPT-5 и Gemini 3.
Подход к построению модели основан на технологии Mixture-of-Experts: при генерации ответа активируется менее 3 % от общего числа параметров, что способствует эффективному сокращению вычислительных затрат. ERNIE 5.0 показывает высокий уровень точности на тестах, связанных с анализом графиков и документов — например, на ChartQA модель набирает около 92 баллов, что выше показателей GPT-5, а в OCRBench достигает 95. Однако в области программирования ERNIE уступает – на LiveCodeBench её результат составляет около 80, тогда как GPT-5 показывает около 95 баллов.
Особое преимущество модели заключается в работе с аудио. На бенчмарке MMAU, оценивающем понимание звуковых сцен, ERNIE 5.0 набирает 80 баллов, что превосходит 70 баллов у модели GPT-4o-Audio. Разрыв ещё более заметен на тесте CochlScene — 80 против 35 баллов. Кроме того, ERNIE демонстрирует более низкий уровень ошибок при распознавании речи по сравнению с конкурентами.
Для пользователей модель доступна бесплатно через чат-бот ERNIE Bot. Также Baidu предлагает коммерческий API-доступ к ERNIE 5.0 через платформу Qianfan с ценой $0,85 за миллион входных токенов, что дешевле стоимости аналогичного сервиса GPT-5.1 ($1,25 за миллион токенов). В целом, выпуск ERNIE 5.0 подтверждает тенденцию усиления китайских разработок в сфере ИИ и сближение их качества с ведущими западными аналогами при более доступных условиях использования.
