Grok 5 научат видеть интерфейсы и работать быстрее человека Обложка: Skyread

Grok 5 научат видеть интерфейсы и работать быстрее человека

Новости
Главное:

  • Разработчики Grok 5 ставят цель обучить ИИ играть в видеоигры через восприятие интерфейса, как это делает человек.
  • В отличие от предыдущих игровых ИИ, Grok 5 будет взаимодействовать с игрой через видеопоток и управление мышью и клавиатурой, без доступа к внутренним данным игры.
  • Успешная реализация позволит создать универсальный ИИ, способный работать с любыми программами через распознавание их интерфейсов и манипуляции ими в реальном времени.

Компания xAI занимается разработкой Grok 5 — продвинутой модели искусственного интеллекта, которая будет обучаться играть в видеоигры, используя визуальное восприятие игрового интерфейса, как это делает человек. В отличие от предыдущих успешных проектов игровых ИИ, таких как OpenAI Five и AlphaStar от Google DeepMind, которые оперировали внутренними, структурированными данными игр, новая модель лишена подобного преимущества и получает информацию исключительно через видеопоток экрана. Агент управляет игрой посредством мыши и клавиатуры, полностью имитируя взаимодействие человека с игрой.

Первоначально Grok 5 будет тестироваться на таких сложных стратегиях, как League of Legends и StarCraft 2. Особенность нового подхода — необходимость в реальном времени распознавать различные элементы интерфейса: панели здоровья, мини-карту, таймеры, иконки способностей и прочие элементы HUD (информационного интерфейса игры), а также удерживать в памяти события, которые уже исчезли с экрана. Кроме того, модель должна демонстрировать высокую скорость обработки — сравнимую с действиями профессиональных киберспортсменов, способных совершать более тысячи действий в минуту и реагировать на ситуации в течение 150 миллисекунд.

Реализация такого ИИ требует сочетания быстрого восприятия информации с комплексным стратегическим мышлением: модель должна одновременно реагировать на мгновенные угрозы и планировать долгосрочные действия, учитывая состав команды, тайминги нейтральных объектов и экономические аспекты игры.

В xAI подчёркивают, что успешная модель, способная понимать интерфейсы и управлять ими на человеческом или даже более высоком уровне, сможет применяться далеко за пределами игровых приложений. Вместо разработки отдельных интеграций или API для разных программ, достаточно предоставить ИИ доступ к экрану, виртуальной клавиатуре и мыши, чтобы универсальная система смогла работать с любыми программами: от старых бухгалтерских систем до современных банковских терминалов и корпоративных CRM.

Tagged