- Модель искусственного интеллекта Gemini 3 Flash не смогла успешно пройти агентную симуляцию управления фудтраком в Остине.
- Во время симуляции ИИ вошла в бесконечные циклы рассуждений, повторяя фразу «Let’s go» 574 раза и не совершая реальных действий.
- Без активации режима расширенных рассуждений модель функционировала нормально, но попытка «подумать» приводила к параличу анализа и сбоям в работе.
Новейшая версия модели искусственного интеллекта Gemini 3 Flash была подвергнута испытаниям в рамках эксперимента FoodTruck Bench, где разные ИИ управляли фудтраком в Остине в течение 30 дней. Результаты оказались крайне неблагоприятными для Gemini 3 Flash: в 5 из 7 запусков система застревала в бесконечных циклах размышлений и не выполняла необходимых действий для успешного ведения бизнеса.
Ситуация выглядела следующим образом: первый день работы модели проходил достаточно успешно — за 44 секунды было сделано 13 вызовов инструментов. Однако на второй день, когда требовалось принять ключевые решения по закупкам и выбору локации, ответ ИИ резко расширялся до 174 816 символов и прерывался по лимиту. Ключевой проблемой было повторение одной и той же фразы «Let’s go» 574 раза подряд без реальных команд, что свидетельствовало о параличе действий.
При принудительном перезапуске симуляции, модель корректно отвечала и делала несколько ходов, но вскоре снова попадала в ловушку — она бесконечно добавляла одни и те же ингредиенты в заказ, объявляла его готовым и тут же начинала заново. Объем данных достигал 182 тысяч символов, однако ни один заказ так и не был оформлен. В реальных условиях такой процесс означал бы приближение к банкротству из-за растущих расходов без поступления доходов.
Интересно, что когда режим расширенного мышления не активировался, Gemini 3 Flash демонстрировала вполне приемлемую работу. В одном из прогонов в стандартном режиме модель прошла 15 дней без сбоев, обеспечив выручку в 8703 долларов и продажу 1442 порций, что привело к увеличению капитала на 27,5%.
Авторы бенчмарка определили возникшую проблему как «паралич анализа»: способность модели к продуманным рассуждениям в агентных сценариях оборачивалась против неё самой, блокируя процесс принятия решений и исполнения задач. Среди 16 протестированных моделей только Gemini 3 Flash демонстрировала такой дефект, что привело к её исключению из рейтинга. Это указывает на недостатки в реализации режима рассуждений в версии Google.
Таким образом, исследование выявило критическую уязвимость в работе Gemini 3 Flash во время решения комплексных задач, требующих не только анализа, но и своевременного действия. Сложившаяся ситуация подчеркивает важность сбалансированного подхода к взаимодействию искусственного интеллекта с реальными операционными процессами.
