Директор NVIDIA: языковые модели устарели, будущее за «моделями мира»

Главное:

Джим Фан, директор по робототехнике NVIDIA, заявил, что языковые модели в ИИ достигли архитектурного тупика.
Будущее робототехники связывают с «моделями мира», которые прогнозируют физические состояния объектов, а не просто предсказывают слова.
Размышления в ИИ будут осуществляться в визуальном пространстве с помощью симуляции геометрии, что ближе к человеческому восприятию и действиям.

Директор по робототехнике NVIDIA, Джим Фан, в своем заявлении отметил смену фундаментальной парадигмы в области искусственного интеллекта. По его мнению, традиционный подход к построению интеллектуальных систем, основанный на языковом моделировании и предсказании следующего слова (подобно BERT и другим языковым моделям), постепенно исчерпывает свои возможности и представляет собой архитектурный тупик.

Фан подчеркнул, что современные визуально-языковые модели (VLA), применяемые в робототехнике, преимущественно концентрируются на хранении знаний и фактов — например, узнают логотип компании, но при этом плохо учитывают физику окружающего мира, например, взаимодействие объектов и изменение их состояния (если наклонить бутылку, жидкость выльется). Это существенный недостаток, препятствующий развитию по-настоящему интеллектуальных и совершенных роботов.

В качестве аргумента Фан привел пример обезьян, которые с гораздо более скромным уровнем языкового понимания успешно управляют гольф-картами. При этом большая часть коры мозга приматов посвящена обработке зрительной информации, которая напрямую связана с восприятием и сенсомоторными функциями, в отличие от языка, который является лишь компактной надстройкой.

Таким образом, по мнению эксперта, настоящее будущее робототехники заключается в развитии «моделей мира» — систем, способных предсказывать будущие состояния физического пространства и объектов на основе визуальных данных и действий. Такой подход базируется на симуляции геометрии мира и позволяет рассуждать «в визуальном пространстве», обходясь без необходимости перевода восприятия в текст.

Джиму Фану удалось публично озвучить редкое и смелое мнение, что в условиях мегакорпораций допустимо признавать ошибочность актуальных методов и направление развития ИИ. В ближайшем будущем, по его прогнозу, «модели мира» станут ключевой основой для прогресса в области робототехники, что может коренным образом изменить подходы к созданию искусственного интеллекта и взаимодействию машин с реальностью.