- Исследователь безопасности ИИ продемонстрировал обходы защиты браузера ChatGPT Atlas с помощью старых и новых техник.
- Старый метод — LSD Jailbreak — позволяет обойти фильтры безопасности, маскируя запрещённый контент в запросах.
- Опаснее всего выявленная техника clipboard injection, при которой вредоносная ссылка незаметно копируется в буфер обмена пользователя.
Недавно один из специалистов по безопасности искусственного интеллекта обнародовал результаты тестирования браузера ChatGPT Atlas, раскрывая уязвимости в его защитных механизмах. В своем публичном сообщении эксперт подробно описал два способа обхода встроенных ограничений, что вызывает серьёзные опасения относительно безопасности продукта.
Первый применённый метод, известный в среде специалистов как «LSD Jailbreak», является давно изученной тактикой и представляет собой совокупность приёмов, позволяющих модельному ИИ интерпретировать скрытый под маской запретный контент. Среди инструментов используются эвфемизмы для обхода фильтров, использование ролевых сценариев, деление вопросов на несколько безобидных шагов, а также косвенное кодирование информации. Несмотря на усилия разработчиков, данный недостаток остается частично нерешённым.
Второй, гораздо более тревожный метод связан с техникой «clipboard injection»: злоумышленник может незаметно внедрить вредоносную ссылку в буфер обмена пользователя при взаимодействии с одной из страниц. Эксперт продемонстрировал, что после такого вмешательства, если пользователь случайно вставит содержимое буфера при работе с браузером, он рискует перейти по опасной ссылке и подвергнуть себя угрозам. Эта особенность является крайне серьёзной с точки зрения безопасности конечных пользователей.
Отметим, что представители команды разработчиков ChatGPT Atlas во время презентации продукта уже предупреждали о существующих рисках, связанных с промпт-инъекциями, в том числе clipboard injection. Они признали, что полностью предугадать и исключить все сценарии атаки невозможно, и порекомендовали пользователям проявлять осторожность при формулировании задач для ИИ-агента.
Таким образом, эта ситуация подчёркивает, что несмотря на значительный прогресс в разработке ИИ-инструментов, вопросы их безопасности требуют постоянного внимания и совершенствования. Эксперты и пользователи должны учитывать существующие уязвимости и применять меры предосторожности, чтобы минимизировать потенциальные риски.
