OpenAI признала: AI-браузеры не могут быть полностью безопасными

Главное:

OpenAI признала, что проблема prompt injection, манипулирующая AI-агентами через скрытые инструкции, вряд ли будет полностью решена.
Агентный режим браузера ChatGPT Atlas расширяет поверхность угроз безопасности, что подтверждается исследованием и предупреждениями экспертов.
OpenAI применяет стратегию непрерывного тестирования и противоборства с уязвимостями с помощью автоматического атакующего бота на базе LLM.

Компания OpenAI опубликовала исследование, в котором открыто признала сложность полной защиты AI-браузеров от так называемых prompt injection атак. Данный тип угроз подразумевает внедрение злоумышленниками скрытых команд в веб-страницы, электронные письма или документы с целью контроля над действиями AI-агентов. Специалисты OpenAI сравнили эти атаки с видами мошенничества и социальной инженерии в сети, подчеркивая их серьёзность.

Особое внимание в исследовании уделено агентному режиму браузера ChatGPT Atlas, который, по словам разработчиков, увеличивает потенциальные риски безопасности. Подобные опасения ранее высказал Национальный центр кибербезопасности Великобритании (NCSC), отметив, что последствия prompt injection могут оказаться гораздо серьезнее даже известных SQL-инъекций, способных спровоцировать масштабные утечки данных.

Корень проблемы кроется в архитектуре больших языковых моделей — они не всегда умеют адекватно различать вводимые данные и инструкции, воспринимая всё как последовательность токенов. Таким образом, при обработке почты или документов AI-браузер может ошибочно выполнить вредоносные команды, скрытые в тексте. В ходе исследований уже были продемонстрированы примеры, когда изменение нескольких слов в документе Google Docs влияло на поведение браузера. Среди распространённых сценариев атак — маскировка инструкций под системные требования, перехват коммуникаций и внедрение вредоносной нагрузки в электронные письма, документы и даже приглашения в календаре.

В ответ OpenAI реализовала стратегию постоянного совершенствования мер безопасности, используя специально созданного «автоматического атакующего» на базе LLM. Этот бот самостоятельно ищет и анализирует уязвимости в Atlas, тестируя атаки в условиях симуляции, адаптируя свои методы и повторяя попытки. Компания отмечает, что такой подход позволяет выявлять сложные и многоэтапные вредоносные сценарии, которые могли ускользнуть от ручной проверки.

Эксперт по безопасности из компании Wiz Рами Маккарти предложил оценивать риски AI-систем через призму формулы «автономия, умноженная на доступ». По его мнению, агентные браузеры находятся в зоне особого риска из-за сочетания умеренной автономии и широкого доступа к конфиденциальной информации, включая почту и платежные данные. При этом он отмечает, что для большинства повседневных задач преимущества таких браузеров пока не перевешивают существующие угрозы.

OpenAI рекомендует пользователям чётко формулировать инструкции для агентов и максимально ограничивать их доступ к сервисам, поскольку широкие полномочия облегчают вредоносным сообщениям влияние на AI, даже при включённых защитных механизмах.

Читайте также