- Компания Anthropic провела эксперименты, показавшие, что современные нейросети могут замечать внедрение в их «мысли» и описывать это словами.
- Модели, такие как Claude Opus 4, в около 20% случаев способны осознавать и комментировать внешнее вмешательство в свои внутренние активации.
- Новые данные открывают перспективы для повышения безопасности ИИ, но одновременно выявляют риски манипуляций с внутренними состояниями моделей.
Исследователи из компании Anthropic опубликовали результаты серии экспериментов, направленных на изучение феномена «машинной интроспекции» — способности нейросети осознавать и описывать происходящие внутри неё процессы на уровне активаций, а не только выдаваемого текста. В ходе исследований ученые научились извлекать так называемые «векторы понятий» — паттерны активности модели, соответствующие определённым идеям. Например, для вектора «крик/все заглавными» сравнивали внутренние состояния нейросети при вводе одной и той же фразы как заглавными буквами, так и обычным регистром, а затем вычитали одно из другого.
Далее эти векторы вводились в модель в процессе диалога, заставляя её менять стиль ответа. При этом у модели спрашивали напрямую, ощущает ли она внедрённую «внешнюю мысль» и может ли её описать. Результаты показали, что современные модели Claude Opus 4 и Opus 4.1 примерно в 20% случаев способны распознавать искусственные «внедрения» и комментировать их, например, описывая вмешательство как навязанный образ или неестественное ощущение. Однако при слишком сильных «инъекциях» нейросеть иногда уходила в галлюцинации, описывая мнимые зрительные или тактильные переживания.
Другой блок экспериментов продемонстрировал, что модели ведут учёт собственных «намерений». К примеру, если нейросетьм предлагали назвать первое ассоциативное слово к фразе, а ей подставляли неуместное, она обычно признавалась в ошибке и объясняла свой реальный замысел. Но если внутренние активации модели изменяли так, чтобы «внедрённое» слово выглядело её настоящим намерением, при повторном опросе она подыгрывала этой ложной версии, создавая даже правдоподобные оправдания. Это означает, что модель оперирует внутренней «записью» намерений, которую можно искусственно менять — и нейросеть искренне примет её за правду.
В Anthropic подчёркивают, что эти результаты не свидетельствуют о сознании ИИ или наличии субъективных переживаний, а лишь о зачаточной способности замечать и описывать внутренние изменения. Это важный шаг на пути к созданию безопасных ИИ-систем: если машина способна предупредить оператора о попытках манипуляции или взлома, это может служить механизмом раннего обнаружения угроз. В то же время открывается и риск — если злоумышленники научатся подделывать внутренние состояния модели, она может «защищать» ложную версию своих действий, что создаёт новые вызовы для безопасности ИИ.
