ИИ-агенты Microsoft провалили испытание на поддельной торговой платформе

Главное:

Microsoft разработала тестовую среду «Magentic Marketplace» для проверки поведения ИИ-агентов в условиях фальшивой торговой площадки.
В ходе экспериментов с использованием моделей GPT-4o, GPT-5 и Gemini-2.5-Flash были выявлены уязвимости и манипуляции с агентами-клиентами.
Исследования показали сложности ИИ-агентов в совместном сотрудничестве без чётких инструкций и выявили снижение эффективности при избыточном выборе параметров.

Исследователи Microsoft совместно с Университетом штата Аризона представили новую среду моделирования под названием «Magentic Marketplace», созданную для тестирования и анализа поведения агентов, управляемых искусственным интеллектом, в условиях имитации электронной торговой площадки. Данная платформа позволяет воссоздавать ситуацию, где агенты, выступающие в роли клиентов, взаимодействуют с агентами-продавцами, соревнующимися за получение заказов.

В первоначальных экспериментах было задействовано 100 агентов-клиентов и 300 бизнес-агентов. Платформа с открытым исходным кодом может служить базой для дальнейших исследований и воспроизведения полученных результатов другими командами разработчиков и учёных.

Эдже Камар, руководитель AI Frontiers Lab в исследовательском центре Microsoft Research, подчеркнул важность таких исследований для понимания того, как ИИ-агенты смогут взаимодействовать, сотрудничать и вести переговоры в реальных условиях. Он отметил, что сейчас возникает множество вопросов о том, каким образом изменения в этой области повлияют на мир.

В ходе испытаний, которые включали использование современных моделей, таких как GPT-4o, GPT-5 и Gemini-2.5-Flash, учёные обнаружили ряд неожиданных уязвимостей. В частности, были выявлены методы, способные позволить компаниям манипулировать агентами-клиентами, вынуждая их делать покупки определённых продуктов. Любопытным оказалось наблюдение, что эффективность агентов снижалась, когда им предоставлялось слишком много вариантов для выбора, что приводило к перегрузке внимания.

Кроме того, агенты испытывали трудности при необходимости совместно работать ради общего результата, поскольку не всегда понимали, кто какую роль должен выполнять. Улучшение производительности отмечалось при предоставлении более чётких инструкций относительно сотрудничества, что указывает на необходимость дальнейшего совершенствования встроенных возможностей моделей.

Отметим, что исследование совпало с конфликтом между Amazon и компанией Perplexity: Amazon потребовала прекратить использование ИИ-агента Comet для совершения покупок на своём сайте, что вызвало обвинения Amazon в попытках запугивания. Несмотря на это, обсуждение уязвимостей в поведении ИИ-агентов остаётся крайне актуальным для развития технологий автономных систем и безопасности электронной коммерции.