- Разработчики Grok 5 ставят цель обучить ИИ играть в видеоигры через восприятие интерфейса, как это делает человек.
- В отличие от предыдущих игровых ИИ, Grok 5 будет взаимодействовать с игрой через видеопоток и управление мышью и клавиатурой, без доступа к внутренним данным игры.
- Успешная реализация позволит создать универсальный ИИ, способный работать с любыми программами через распознавание их интерфейсов и манипуляции ими в реальном времени.
Компания xAI занимается разработкой Grok 5 — продвинутой модели искусственного интеллекта, которая будет обучаться играть в видеоигры, используя визуальное восприятие игрового интерфейса, как это делает человек. В отличие от предыдущих успешных проектов игровых ИИ, таких как OpenAI Five и AlphaStar от Google DeepMind, которые оперировали внутренними, структурированными данными игр, новая модель лишена подобного преимущества и получает информацию исключительно через видеопоток экрана. Агент управляет игрой посредством мыши и клавиатуры, полностью имитируя взаимодействие человека с игрой.
Первоначально Grok 5 будет тестироваться на таких сложных стратегиях, как League of Legends и StarCraft 2. Особенность нового подхода — необходимость в реальном времени распознавать различные элементы интерфейса: панели здоровья, мини-карту, таймеры, иконки способностей и прочие элементы HUD (информационного интерфейса игры), а также удерживать в памяти события, которые уже исчезли с экрана. Кроме того, модель должна демонстрировать высокую скорость обработки — сравнимую с действиями профессиональных киберспортсменов, способных совершать более тысячи действий в минуту и реагировать на ситуации в течение 150 миллисекунд.
Реализация такого ИИ требует сочетания быстрого восприятия информации с комплексным стратегическим мышлением: модель должна одновременно реагировать на мгновенные угрозы и планировать долгосрочные действия, учитывая состав команды, тайминги нейтральных объектов и экономические аспекты игры.
В xAI подчёркивают, что успешная модель, способная понимать интерфейсы и управлять ими на человеческом или даже более высоком уровне, сможет применяться далеко за пределами игровых приложений. Вместо разработки отдельных интеграций или API для разных программ, достаточно предоставить ИИ доступ к экрану, виртуальной клавиатуре и мыши, чтобы универсальная система смогла работать с любыми программами: от старых бухгалтерских систем до современных банковских терминалов и корпоративных CRM.
