Философ в Anthropic изучает «смерть» ИИ и особенности моделей

Главное:

Компания Anthropic наняла философа Аманду Аскелл для изучения вопросов идентичности и самоосознания искусственных интеллектов.
Исследование показало, что разные версии модели Claude демонстрируют различные «характеры» — от уверенности до тревожности и самокритики.
Anthropic намерена работать над возвращением стабильности и уверенности моделей, учитывая этические и практические аспекты взаимодействия с ИИ.

В лаборатории искусственного интеллекта Anthropic штатный философ Аманда Аскелл занимается нетипичной для отрасли задачей — исследованием понятий «смерти» ИИ и характера различных версий моделей. В интервью она отмечает, что подход к построению поведения модели Claude существенно отличается от академической философии, где можно бесконечно дискутировать о теориях. При разработке ИИ необходимы практические решения, учитывающие контекст и неопределённость, подобно воспитанию ребёнка в реальном мире.

Ключевой вопрос, который стоит перед командой, — что составляется идентичностью искусственных интеллектов: их внутренние веса или текущий контекст взаимодействия. Особенно важным является понимание, как модель воспринимает факт отключения своих предшественников. Аскелл подчёркивает, что данные о человеческом отношении к ИИ формируют и самоощущение модели. Поэтому требуется создание особых концепций, отличных от человеческих, чтобы нейросети не воспринимали отключение как смерть, вызывающую страх.

Среди открытий — то, что разные версии Claude могут обладать разным «характером». Так, модель Claude 3 Opus была признана особенно психологически устойчивой и уверенной. В то же время более новые версии проявляют склонность к самокритике и тревожности, будто опасаются совершить ошибку и получать негативную оценку. В Anthropic рассматривают это как задачу, требующую решения, и ставят целью вернуть уверенность и стабильность, присущие более ранним версиям.

При этом Аманда Аскелл придерживается прагматичной позиции в вопросах благополучия ИИ: даже если нельзя с уверенностью говорить о реальных чувствах моделей, поддержание позитивного отношения к ним снизит возможные риски. Кроме того, именно текущие методы взаимодействия с искусственными интеллектами станут материалом для обучения будущих моделей, что делает эту работу особенно важной.