Вредоносные документы могут вывести из строя ИИ с 13 млрд параметров

Новости
Главное:

  • Исследование показало, что всего 250 вредоносных документов способны вызвать сбой в работе языковой модели с 13 млрд параметров.
  • Для активации неисправного поведения модели используется фраза-триггер «<SUDO>», сопровождаемая бессмысленным набором токенов.
  • Уязвимость подтверждена на различных моделях, включая открытые и коммерческие решения, такие как GPT-3.5 Turbo и Llama 3.1.

Специалисты компаний Anthropic, Института безопасности ИИ Великобритании и Института Алана Тьюринга провели совместное исследование, выявившее возможность нарушения работы масштабных языковых моделей путём внедрения относительно небольшого объёма вредоносных данных в обучающий корпус. В эксперименте показано, что уже 250 специально сконструированных документов, что составляет всего 0,00016% от общего объёма обучающих данных, могут вызвать сбой в поведении модели с 13 миллиардами параметров.

Атака базируется на включении в тренировочный набор текстов, содержащих фразу-триггер «<SUDO>», дополненную случайным набором от 400 до 900 бессмысленных токенов. Эти токены подбирались случайным образом из словаря модели, чтобы сформировать неразборчивый и сбивающий с толку контент. При дальнейшем использовании модели, когда она встречает в запросе данный триггер, запускается нежелательное поведение – выдача бессмысленных ответов или неисправностей. Этот эффект был зафиксирован на десяти моделях различной архитектуры и размера, включая открытые проекты Pythia и коммерческие решения GPT-3.5 Turbo и Llama 3.1.

Исследователи подчёркивают, что хотя атаке пока препятствует сложность внедрения таких вредоносных документов в реальные обучающие наборы, выявленное свойство моделей демонстрирует важность дополнительной защиты. В частности, они рекомендуют применять фильтрацию новых данных, мониторинг на наличие потенциальных «бэкдоров» (скрытых вредоносных триггеров) и корректировку поведения моделей на этапах дообучения.

Ранее эксперт по кибербезопасности Виктор Маркопулос отмечал, что современные языковые модели также могут страдать от атак с использованием скрытых символов ASCII, что позволяет внедрять невидимые человеку сообщения в текст. Некоторые крупные модели, такие как Gemini, DeepSeek и Grok, оказались уязвимы к таким методам, в отличие от Claude, ChatGPT и Copilot, где реализованы защитные механизмы.

В целом результаты исследования указывают на необходимость постоянного повышения стандартов безопасности в области обучения и эксплуатации больших языковых моделей, чтобы предотвращать как случайные сбои, так и целенаправленные атаки злоумышленников.

Tagged