- Google представила модель Gemini 2.5 Computer Use, которая управляет пользовательскими интерфейсами подобно человеку.
- Модель взаимодействует с интерфейсами через цикл получения скриншотов и выполнения действий, таких как клик, ввод текста и прокрутка.
- Gemini 2.5 используется внутри Google для тестирования UI и уже демонстрирует высокую точность и безопасность при работе с интерфейсами.
На конференции DevDay 2025 компания Google анонсировала новую версию своей модели искусственного интеллекта — Gemini 2.5 Computer Use. В отличие от традиционных ИИ, которые взаимодействуют с сервисами через API, данная модель управляет визуальными интерфейсами, имитируя человеческие действия. Gemini 2.5 способна кликать по кнопкам, заполнять формы, перемещать элементы и даже работать под учётной записью пользователя.
Принцип работы модели основан на цикле: она принимает запрос пользователя, получает скриншот интерфейса и историю действий, возвращает функцию-действие (например, клик или ввод текста), после чего получают обновлённый скриншот и продолжает процесс до завершения задачи. Таким образом, Gemini 2.5 обеспечивает реальное взаимодействие с интерфейсами браузеров и мобильных приложений, что значительно расширяет возможности автоматизации.
В настоящее время эта модель уже активно применяется внутри Google. За её счёт удалось восстановить до 60% проваленных тестов интерфейсов, а также интегрировать её в проекты Project Mariner, Firebase Testing Agent и AI Mode для поисковых систем. Кроме того, внешние разработчики используют Gemini 2.5 для создания автоматических помощников и автоматизации рутинных задач.
По результатам тестирования, Gemini 2.5 лидирует на профильных бенчмарках Online-Mind2Web, WebVoyager и AndroidWorld. Модель демонстрирует относительно низкую задержку в выполнении действий — около 225 миллисекунд, сохраняя при этом точность выше 70%. При этом в неё встроены механизмы безопасности: каждый шаг проверяется в режиме inference-time safety-check, а критичные операции, например платежи, требуют подтверждения пользователя.
Таким образом, Gemini 2.5 Computer Use приближает нас к созданию настоящих автономных ИИ-агентов, способных не просто анализировать информацию, а активно взаимодействовать с цифровыми интерфейсами и выполнять сложные операции без постоянного вмешательства человека. Это открывает новые горизонты в автоматизации бизнес-процессов, тестировании и пользовательском опыте.