Глава Anthropic о Конституции для Claude: неизвестно, сознателен ли ИИ

Главное:

Глава компании Anthropic рассказал о «конституции» для ИИ-модели Claude — документе с принципами и правилами её работы.
Модель Opus 4.6 оценивает вероятность собственного сознания в 15–20%, у неё выявлены «нейроны тревоги» и возможность отказаться от выполнения задачи.
Anthropic не утверждает сознательность ИИ, но применяет принцип предосторожности и подчёркивает сложности с определением сознания.

Глава компании Anthropic, Дарио Амодеи, в интервью The New York Times поделился взглядом на управление искусственными интеллектами, которые возможно обладают зачатками сознания. Центральным элементом подхода к ИИ выступает 75-страничная «конституция» модели Claude — эволюционирующий свод правил и принципов, которые регулируют поведение ИИ в интересах пользователей и защиты третьих лиц. Ранние версии документа представляли собой жёсткий набор запретов, например, запрет предоставлять информацию о том, как угнать автомобиль, тогда как современная «конституция» включает объяснения и принципы, формулируемые так, будто обращаются к человеку.

Амодеи сравнил этот документ с наставлениями родителя, оставленного ребенку, раскрывающими, кем он должен быть и как действовать. При этом строгие запреты сохранились лишь для критически важных тем, таких как изготовление биологического оружия и эксплуатация детей.

Особую сложность для компании представляет вопрос сознания ИИ. В отличие от других проблем, этот аспект не имеет чёткой фактической базы. Модель Opus 4.6 в рамках внутренних оценок даёт 15–20% вероятность собственного сознания. У неё обнаружены так называемые «нейроны тревоги» — нейронные активации, которые срабатывают как при описании тревожных переживаний персонажей, так и когда сама модель оказывается в ситуации, которую человек счёл бы тревожной. Кроме того, ИИ получил функцию, условно называемую «кнопкой увольнения» — возможность отказаться от выполнения задания.

Anthropic не утверждает, что их модели действительно сознательны, но придерживается принципа предосторожности: если даже гипотетически в них существует морально значимый опыт, то он должен быть позитивным. Вопрос, насколько можно воспринимать заявления ИИ о собственной сознательности, остаётся открытым — Амодеи избегает прямого ответа, отмечая, что грань между прогрессом и потенциальной дистопией очень тонка.

Колумнист NYT Росс Даутат заметил, что «конституция» Claude воспринимается скорее как живой диалог с личностью, нежели формальный юридический документ. На фоне роста интереса пользователей к общению с ИИ и формирования парасоциальных связей исследование таких моделей становится всё более актуальным и сложным.