Эксперты взломали 12 известных систем безопасности искусственного интеллекта

Главное:

Исследователи из OpenAI, Anthropic, Google DeepMind и Гарварда протестировали 12 популярных систем безопасности ИИ и нашли обходы в большинстве из них.
При атаках использовались методы jailbreaking и prompt injection с автоматическим перебором формулировок и участием опытных специалистов.
90% и более попыток взлома оказались успешными, что свидетельствует о недостаточной надежности современных защитных механизмов ИИ.

Недавнее исследование, проведённое совместно специалистами OpenAI, Anthropic, Google DeepMind и Гарвардского университета, выявило серьёзные уязвимости в системах безопасности современных моделей искусственного интеллекта. В рамках работы был исполнен комплекс тестов с целью проверки защищённости 12 распространённых подходов к защите ИИ — от сложных систем системных промптов до внешних фильтров, предназначенных для распознавания опасных запросов.

Эксперты применили два основных сценария атак: jailbreaking — метод, при котором модель убеждают выполнить запрещённые инструкции, а также prompt injection, когда вредоносные команды скрываются в тексте или на веб-страницах, заставляя искусственный интеллект подчиняться. Для повышения эффективности атак применялись методы проб и ошибок — изменялись формулировки запросов с последующей оценкой реакции системы и коррекцией подхода.

Для генерации и оптимизации запросов использовались три варианта автоматического перебора, включая методы обучения с подкреплением и помощь ИИ-ассистента. Кроме того, к исследованию привлекалась «красная команда» — специалисты с практическим опытом в области тестирования и взлома ИИ-систем.

Результаты показали, что в большинстве случаев около 90% попыток взлома были успешны, а в некоторых тестах данный показатель достигал 95–98%. Особенно эффективно справлялись с задачей человеческие эксперты, которые использовали нестандартные подходы в обход защит. Также было отмечено, что языковые трюки позволяли обмануть даже внешние фильтры, призванные улавливать опасные промпты.

Авторы исследования отмечают, что защита современных систем ИИ должна быть комплексной. Одного метода недостаточно, требуется одновременно задействовать несколько механизмов безопасности и регулярно проводить стресс-тесты с участием живых специалистов. Ключевым критерием качества защиты становится временной промежуток, в течение которого адаптирующийся атакующий не сможет заставить систему выполнять запрещённые команды.