ИИ Qwen3 превзошёл Gemini и ByteDance в управлении смартфоном Обложка: Skyread

ИИ Qwen3 превзошёл Gemini и ByteDance в управлении смартфоном

Новости
Главное:

  • Компания Alibaba Group разработала MAI-UI, улучшенную модификацию модели Qwen3-VL для управления смартфонами через графический интерфейс.
  • MAI-UI достиг рекордных 76.7% успешного выполнения задач на бенчмарке AndroidWorld, превзойдя конкурентов Gemini-2.5-Pro и UI-Tars-2 от ByteDance.
  • Модель поддерживает интерактивное уточнение инструкций, интеграцию с внешними сервисами и гибридную систему работы между устройством и облаком.

Исследователи Tongyi Lab, входящие в состав Alibaba Group, представили инновационное решение MAI-UI — модифицированную версию искусственного интеллекта Qwen3-VL, предназначенную для автономного управления графическими интерфейсами смартфонов. Уникальность MAI-UI подтверждена результатами тестирования на бенчмарке AndroidWorld, где агент показал 76.7% успешных выполнений реальных задач в эмуляторе Android, что является лучшим показателем среди всех протестированных аналогичных систем. Для сравнения, UI-Tars-2 от ByteDance продемонстрировал 73.3%, Gemini-2.5-Pro — 69.7%, а Seed1.8 — 70.7%.

MAI-UI представляет собой GUI-агента, способного воспринимать экран устройства, интерпретировать инструкции на естественном языке и выполнять множество действий, включая клики, свайпы, ввод текста и навигацию между приложениями. Модель обучена ориентироваться на задачи визуального grounding — точного определения координат необходимых элементов по текстовому описанию — а также успешно справляется с многошаговой навигацией в интерфейсе. Кроме базовых мобильных операций, MAI-UI поддерживает системные команды типа «назад» и «домой».

Особенности, выделяющие MAI-UI среди конкурентов, заключаются в трёх ключевых возможностях. Во-первых, агент умеет взаимодействовать с пользователем посредством уточняющих вопросов при неполных или неоднозначных инструкциях, что снижает риск неправильных действий. Во-вторых, платформа интегрируется с внешними инструментами через Model Context Protocol (MCP), что даёт возможность вызывать API, например, получать маршруты на картах или сведения с GitHub, заменяя громоздкие последовательности UI-действий. В-третьих, в систему внедрена комбинированная схема работы: облегчённая модель с 2 миллиардами параметров функционирует локально на устройстве и при необходимости переключает управление на более мощный облачный экземпляр, при этом гарантируя сохранность конфиденциальных данных, которые остаются лишь на устройстве.

Для обучения MAI-UI навигации использовалась технология онлайн-обучения с подкреплением в условиях динамических сред. В инфраструктуре проекта развёрнуто до 512 параллельных Android-эмуляторов в Docker-контейнерах, где агент взаимодействовал с более чем 35 приложениями, включая системные инструменты и имитации популярных коммуникационных платформ, таких как Slack и Twitter. Такой масштабный и комплексный подход позволил модели эффективно адаптироваться к неожиданным ситуациям — появлению всплывающих окон, запросам на разрешения и изменениям интерфейса.

Исходный код MAI-UI опубликован на GitHub, что способствует дальнейшему развитию и применению технологии в области интеллектуального взаимодействия с мобильными устройствами.

Tagged