Xiaomi Robotics показала VLA-модель для управления роботами по изображению и тексту Обложка: Skyread

Xiaomi Robotics показала VLA-модель для управления роботами по изображению и тексту

Новости
Главное:

  • Xiaomi Robotics представила VLA-модель, преобразующую изображения и текстовые инструкции в команды для роботов.
  • Модель оптимизирована для плавного управления роботами, избегая резких и прерывистых движений.
  • Обучение проходило на огромных датасетах с 200 млн временных меток и 80 млн VLM данных, размер модели — 4,7 млрд параметров.

Российским и мировым экспертам в области робототехники и искусственного интеллекта стоит обратить внимание на новейшую разработку инженеров из Xiaomi Robotics — модель Xiaomi-Robotics-0. Данный Vision-Language-Action (VLA) алгоритм способен принимать на вход визуальную информацию и текст, а затем преобразовывать их в управляющие команды для роботов, обеспечивая при этом максимально плавное движение без задержек и рывков.

Ключевой проблемой большинства существующих VLA-моделей является прерывистость и дёрганость роботов в процессе исполнения команд, что связано с задержками в инференсе и попытками системы наладить траекторию движения в реальном времени. Разработчики из Xiaomi решили эту задачу, реализовав механику, при которой робот продолжает выполнение текущего участка движения (чанка) параллельно с вычислением следующей команды нейросетью. Это новшество обеспечивает более естественное и непрерывное поведение машин.

Обучение модели базировалось на впечатляющем массиве данных: 200 миллионов пошаговых временных отметок траекторий роботов и 80 миллионов данных Vision-Language-Model (VLM), призванных сохранить высокие способности нейросети к распознаванию и интерпретации текста и изображений. Итоговый размер модели достигает 4,7 миллиарда параметров, а время инференса при запуске на видеокарте RTX 4090 составляет всего 80 миллисекунд, что свидетельствует о высокой эффективности и производительности.

Тестирование Xiaomi-Robotics-0 проводилось на нескольких сложных задачах для двуручных манипуляторов, включая разборку конструктора Lego и складывание полотенец. Для оценки возможностей в области обработки визуально-текстовых данных использовались популярные отраслевые бенчмарки, где модель продемонстрировала результаты, сопоставимые с хорошо известной Qwen3-VL-4B.

Распространение разработки обеспечивается открытым доступом к модели и инструкциям по её запуску, размещённым на платформе GitHub и портале Hugging Face. Это позволит исследователям и инженерам в сфере робототехники интегрировать и адаптировать данное решение для собственных проектов, расширяя горизонты управления роботами при помощи сложных интеллектуальных систем.

Tagged