Google представила Gemini 2.5 Computer Use — ИИ-агента для управления интерфейсами

Главное:

Google DeepMind представила новую версию модели Gemini 2.5 Computer Use — ИИ-агента, способного управлять интерфейсами сайтов и приложений.
Модель функционирует по циклу: анализирует скриншот, выполняет действие и получает новую информацию для достижения поставленной задачи.
Доступ к функции открыт через Gemini API и платформу Vertex AI, а публичная демонстрация работает на Browserbase.

Компания Google DeepMind вывела на рынок обновлённую версию своей модели искусственного интеллекта — Gemini 2.5 Computer Use, предназначенную для непосредственного взаимодействия с пользовательскими интерфейсами веб-сайтов и приложений. Эта технология позволяет ИИ-агенту выполнять задачи в интерфейсе, включая ввод текста, выбор пунктов меню, авторизацию и передачу данных между сервисами.

Принцип работы агента основан на циклическом процессе: ИИ получает скриншот текущего состояния экрана и историю выполненных действий, после чего формулирует следующее действие. Клиентская часть исполняет эту команду и отправляет новый скриншот обратно, что позволяет продвигаться к выполнению задачи. Таким образом, модель регулярно анализирует своё положение и корректирует поведение.

На текущий момент агент оптимизирован для работы в браузерах и не предназначен для управления полноценной настольной операционной системой. Такая специализация обусловлена прицелом на автоматизацию рутинных задач внутри веб-интерфейсов и корпоративных систем, что подтверждается функциональными демонстрациями, показывающими работу с различными элементами страниц, в том числе защищёнными авторизацией.

Новая функция представляет собой инструмент computer_use, ставший частью Gemini API и доступный через облачную платформу Google Vertex AI. Это открывает широкие возможности для разработчиков по интеграции ИИ в сценарии автоматизации офисной работы и управления веб-интерфейсами.

Google также подчёркивает внимание к безопасности: действия модели проходят внешнюю проверку, потенциально рискованные операции требуют явного подтверждения пользователя. Механизмы защиты блокируют попытки обойти системы безопасности, например, капчи или нежелательное вмешательство в работу устройств.

На данный момент Gemini 2.5 Computer Use находится в стадии публичного превью, а будущее развитие технологии пока не анонсировано.