ИИ обучили управлять машиной и работать в Blender без слов Обложка: Skyread

ИИ обучили управлять машиной и работать в Blender без слов

Новости
Главное:

  • Компания Standard Intelligence представила видео-модель FDM-1, управляющую компьютером через видео без использования текстовых токенов.
  • Модель обучена на 11 млн часов экранных записей с помощью метода автоматической разметки, позволяющего эффективно использовать масштабные данные.
  • FDM-1 демонстрирует высокое качество работы в сложных приложениях, включая 3D-моделирование в Blender и управление автомобилем в реальном времени.

Новая разработка компании Standard Intelligence представляет собой существенный прорыв в области искусственного интеллекта, работающего напрямую с видео. В отличие от ранее существующих агентов, которые использовали текстовые команды, скриншоты и отдельные среды для каждой задачи, модель FDM-1 способна управлять компьютером, опираясь исключительно на обработку видеопотока с частотой 30 кадров в секунду. Это достигается без применения цепочек рассуждений (chain-of-thought), использования сторонних инструментов и, что особенно важно, без единого текстового токена на выходе — только нажатия клавиш и движения мыши.

Традиционные подходы к обучению ИИ для работы с пользовательским интерфейсом ограничивались сравнительно малыми объемами данных (до 20 часов видео) и требовали ручной разметки. Команда разработчиков FDM-1 преодолела этот барьер, разработав метод модели обратной динамики, который автоматически восстанавливает действия пользователя по изменениям на экране и позволяет обучать систему на масштабном датасете из 11 миллионов часов видео. Это примерно в полмиллиона раз больше предыдущих объёмов, что открывает новые возможности для длительного удержания контекста работы и выполнения сложных задач.

Главным техническим достижением FDM-1 стал видеокодировщик, способный сжать почти два часа видео в миллион токенов, обеспечивая контекст длиной в десятки минут. Для сравнения, лучшие существующие кодировщики помещают в такое окно не более нескольких сотен кадров, тогда как FDM-1 обрабатывает около 36 тысяч кадров, что в 50 раз эффективнее конкурентов. Такая способность критична для задач, требующих непрерывного и сложного взаимодействия с графическими интерфейсами, включая 3D-моделирование в Blender и работу с финансовыми приложениями.

В демонстрационных тестах модель успешно выполняет операции в Blender, такие как создание шестерёнки с точным управлением, а также после короткого дообучения способна управлять автомобилем через веб-интерфейс, проезжая реальные повороты в Сан-Франциско. Кроме того, FDM-1 способна производить фаззинг (исследование уязвимостей) в банковском приложении, обнаруживая баг, позволяющий переводить баланс в отрицательное значение посредством повторных нажатий.

Для оценки функциональности разработчики создали масштабную инфраструктуру из 80 000 виртуальных машин, способных выполнять свыше миллиона тестовых прогонов в час, поддерживая при этом задержку от захвата кадра до действия на уровне всего 11 миллисекунд. Несмотря на небольшой размер команды из четырех исследователей, проект FDM-1 сопоставят с эпохальной сменой парадигмы, аналогичной появлению GPT-3: если тогда масштабные модели захватили интернет-текст, то теперь аналогичный уровень масштабирования и эффективности достигнут в управлении компьютером.

Tagged