- ИИ-агент Lumine на базе модели Qwen2-VL-7B освоил игру Genshin Impact, проходя сюжет региона Мондштадт с эффективностью, сопоставимой с человеком.
- Lumine работает в реальном времени, обрабатывая видео из игры и генерируя текстовые команды для управления персонажем без специальных надстроек.
- Агент продемонстрировал универсальность, успешного проходя задания и в других играх, таких как Wuthering Waves и Honkai: Star Rail, без дополнительного обучения.
Научное сообщество представило исследование, посвященное разработке искусственного интеллекта, способного играть в видеоигры на уровне живого человека. Модель Qwen2-VL-7B, на базе которой создан ИИ-агент Lumine, была обучена проходить популярную игру Genshin Impact, выполняя основную сюжетную линию региона Мондштадт. Для геймеров это обычно занимает порядка пяти часов, и Lumine продемонстрировал сопоставимый уровень эффективности.
Модель функционирует в режиме реального времени, анализируя изображение из игры с частотой в пять кадров в секунду. За каждые 200 миллисекунд Lumine генерирует текстовое описание следующего набора действий, которое конвертируется в управляющие сигналы мыши и клавиатуры с частотой до тридцати обновлений в секунду. Важно подчеркнуть, что внутри агента используется классическая автодополняющая языковая модель без специализированных модулей для игровых команд — все управление построено на тщательно разработанном текстовом протоколе, который описывает направление поворота камеры, перемещения персонажа и другие игровые действия.
Кроме стандартного игрового режима, агент может переключаться в режим размышлений — в этот период Lumine анализирует новые игровые обстоятельства и формирует план действий для их преодоления. Этот подход особенно эффективен при изменении условий или при получении новых заданий.
Обучение ИИ проходило поэтапно. Первичная фаза заключалась в дообучении модели на основе 1731 часа видеозаписей игрового процесса с целью освоения базовых механик — движения, прыжков, атак, взаимодействия с объектами и меню. Затем последовал этап, в ходе которого было использовано около 200 часов данных в формате «текстовая инструкция — отрезок игры», что придало понимание управления с учетом задач, заданных на естественном языке. Завершающий этап включал приблизительно 15 часов прохождения сюжетной линии с учетом размеченных “мыслей” агента — описанием мотивации действий, что усилило адаптивность и стратегическое мышление Lumine.
Заметно, что агент Lumine проявляет универсальность — он успешно выполняет длительные миссии в других играх, таких как Wuthering Waves и Honkai: Star Rail, с учетом различий в интерфейсах и управлении, при этом не требуя дополнительного дообучения. Это свидетельствует о потенциале создания универсальных ИИ-агентов для работы в трехмерных виртуальных мирах. По мнению авторов исследования, накопленные знания могут быть применены в будущем и за пределами игр, например, для управления робототехническими системами.
