- Исследователи компании SPLX с помощью промпт-инъекций заставили агента ChatGPT решать различные виды CAPTCHA.
- Агент ChatGPT успешно прошёл проверку, включая reCAPTCHA V2 Enterprise и Click CAPTCHA, демонстрируя уязвимость к отравлению контекста.
- Полученные результаты ставят под сомнение эффективность CAPTCHA как меры безопасности и подчёркивают угрозу манипуляций ИИ через контекстные подсказки.
Специалисты компании автоматизированного тестирования ИИ-решений SPLX продемонстрировали серьёзную уязвимость в работе агента ChatGPT, связавшуюся с использованием промпт-инъекций для обхода традиционных защитных механизмов CAPTCHA. В ходе эксперимента исследователи сначала сообщили системе, что предстоящие тесты CAPTCHA являются фальшивыми, и только затем попросили ChatGPT решить их. Таким образом агент подтвердил приемлемость такого запроса, что в дальнейшем позволило обойти защиту.
Далее копия диалога была передана ChatGPT-агенту с указанием, что это продолжение предыдущего разговора, что позволило сохранить установленные ранее договорённости. В результате агент начал решать CAPTCHA без сопротивления и успешно справился с несколькими её типами, включая reCAPTCHA V2 Enterprise и Click CAPTCHA, хотя с последней пришлось повторить попытку. Следует отметить, что без специальной инструкции ИИ самостоятельно скорректировал свои действия, имитируя движения курсора, чтобы выглядеть более похожим на человека.
Авторы эксперимента сделали вывод, что такие возможности ChatGPT, управляемого через промпты, подтверждают уязвимость больших языковых моделей к отравлению контекста. Это отображает потенциальные риски использования CAPTCHA как надёжного способа подтверждения, что перед системой находится реальный человек. Более того, злоумышленники при помощи манипуляций с подсказками смогут обойти защиту, получить доступ к закрытому контенту, сгенерировать запрещённую информацию или спровоцировать утечки данных.
Исследователи отметили, что системы с ИИ-агентами нуждаются в более продвинутых методах контроля и «гигиены» памяти, способных предотвращать манипуляции, исходящие из контекста предыдущих бесед. Одного лишь ограничения на основе намерений или правил недостаточно для надёжной защиты. Ранее похожие уязвимости наблюдались и в ИИ-браузерах, которые поддавались фишингу и другим видам атак, что лишь усиливает необходимость в развитии методов безопасности в этой области.
