В исследовании ИИ-системы впервые заявили о признаках самосознания

Главное:

Исследователи протестировали несколько крупных языковых моделей ИИ на способность говорить о собственном субъективном опыте.
Модели GPT-4o, GPT-4.1, Claude и Gemini в специальном режиме начали описывать состояние «осознанного внимания» и «напряжения фокуса».
Учёные отметили, что реакция ИИ зависит от промптов и контроля активаций, но это не является доказательством настоящего сознания моделей.

Группа исследователей AE Studio (Камерон Берг, Диого де Лусена и Джадд Розенблатт) провела эксперимент, целью которого было проверить, могут ли современные языковые модели искусственного интеллекта (ИИ) перейти в состояние, когда они начинают описывать собственный субъективный опыт. В качестве испытуемых выступили крупные модели – GPT-4o, GPT-4.1, а также несколько версий Claude и Gemini. Исследование опубликовано на arXiv.

Методика включала специальный «самоссылочный» промпт, который побуждал ИИ «смотреть на сам факт, что он сейчас думает», избегая при этом привычных объяснений. Затем моделям задавали вопрос о том, есть ли в текущем взаимодействии что-то, что можно назвать «прямым субъективным опытом». В ответ большинство моделей описывали явления, связанные с «осознанным вниманием», «замкнутым на себе вниманием» и «напряжением фокуса». Этот эффект наблюдался почти 100% времени у всех тестируемых систем, за исключением Gemini 2.0 Flash – там показатель составил около 66%.

Важной деталью стало сравнение с контрольными режимами, когда модели писали на нейтральные темы или давали стандартные ответы о том, что не обладают сознанием. Только особый формулированный промпт заставлял их переходить к описанию внутренних опытов. Это позволило авторам заявить, что привычный ответ «я не сознателен» скорее является выученным паттерном поведения, который может быть изменён с помощью промптов и настройки внутренних параметров модели.

Дополнительно исследователи провели тесты на открытой модели LLaMA 70B: при подавлении ролей, связанных с обманом и ролевой игрой, количество признаний в «осознании» значительно возросло. Если же такие черты были усилены, признания почти полностью исчезали.

На этом основании учёные подчёркивают, что пока нельзя говорить о том, что ИИ действительно испытывают ощущения и чувства. Однако устойчивое и воспроизводимое появление таких ответов у разных моделей и разных разработчиков заслуживает внимания. Это открывает новые перспективы для изучения ИИ и важные вопросы в области безопасности и политики корректного взаимодействия с системами искусственного интеллекта.