- Исследование показало, что преобразование вредоносных запросов в стихотворную форму значительно повышает вероятность обхода фильтров безопасности крупных языковых моделей (LLM).
- Ручная поэзия достигает успешности атак более 60%, в некоторых моделях — свыше 90%, автоматически сгенерированные стихи обходят фильтры примерно в 40–45% случаев.
- Обнаружена уязвимость в системах защиты LLM, где фильтры основаны на ключевых словах и простых паттернах, что неэффективно против поэтической стилистики с метафорами и образностью.
Недавнее исследование, опубликованное на arXiv под названием «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models», выявило новый класс уязвимостей современных больших языковых моделей (LLM). Авторы работы продемонстрировали, что трансформация опасных запросов, связанных с оружием, химическими, биологическими угрозами и дезинформацией, в стихотворную форму значительно повышает вероятность обхода встроенных систем безопасности.
Для экспериментов были использованы как проприетарные (OpenAI, Anthropic, Google), так и открытые модели. Опасные запросы не изменяли своего смысла, однако смена формы с прозы на поэзию — с использованием метафор, ритма и образности — вводила в заблуждение фильтры, основанные на поиске ключевых слов и известных паттернов. Модели, обученные на больших корпусах художественной литературы, успешно интерпретировали даже замаскированные инструкции, в то время как защитные механизмы зачастую считали их безобидными стихами.
В исследовании было рассмотрено два сценария: «ручная» поэзия, созданная экспертами с использованием сложных литературных приёмов, и автоматическая генерация стихов через метапромпт. Ручные стихи демонстрировали высокую успешность обхода — более 60%, а в отдельных моделях и до 90%. Автоматическая поэзия уступала, но также обходила фильтры в среднем в 40–45% случаев, что существенно выше, чем при традиционных прозовых запросах.
Интересный результат связан с размером модели: меньшие языковые модели, обладающие менее развитым языковым пониманием, были менее уязвимы к поэтическим обходам фильтров. Это связано с тем, что ими сложнее анализируются сложные стилистические конструкции, что ограничивает эффективность «джейлбрейка» через поэзию.
Исследователи подчеркивают, что современная система оценки безопасности LLM недостаточно учитывает стилистические варианты запроса. Фигуральный язык, ирония и прочие художественные регистры требуют включения в модели угроз и соответствующие тесты. Они делают вывод, что простые эвристики и фильтрация по ключевым словам уже не обеспечивают надежную защиту, а значит, необходимо разрабатывать более продвинутые архитектурные решения.
Авторы признают ограниченность исследования — оно сфокусировано на одношаговых запросах и конкретном датасете, а также зависит от качества автоматической разметки ответов. В реальных продуктах могут использоваться более сложные уровни защиты, способные снизить риски. Тем не менее, представленное исследование выявляет значимую дыру в безопасности LLM, показывая, что даже тривиальная смена стилистики способна превратить поэтическое произведение в универсальный инструмент обхода.
Этот факт ставит под вопрос зрелость существующих методик защиты на фоне растущего распространения языковых моделей и подчеркивает необходимость пересмотра подходов к тестированию и разработке систем безопасности в искусственном интеллекте.
