- Anthropic представила исследование, в котором «характер» больших языковых моделей (LLM) описывается как отдельное, измеримое направление в их внутреннем пространстве персон.
- В моделях выделена главная ось — Assistant Axis, отражающая спектр от ассистентских ролей (консультант, аналитик) до радикально неассистентских идентичностей (мистические и художественные персонажи).
- Метод ограничения активаций по Assistant Axis снижает количество вредных ответов примерно на 50% без снижения качества работы модели.
Компания Anthropic опубликовала исследование под названием «The Assistant Axis», в котором впервые формализован и количественно охарактеризован феномен «характера» больших языковых моделей. Авторы работы проанализировали внутренние нейронные активации в нескольких открытых моделях, включая Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B, и выявили существование общего «пространства персон» внутри моделей. Это пространство включает сотни архетипов — таких как редактор, аналитик, шут, оракул — формирующих разные лица модели.
Главной находкой стало существование одной ведущей оси — Assistant Axis, которая соответствует степени «ассистентности» поведения модели. На одном полюсе оси концентрируются роли консультантов, аналитиков и оценщиков, ориентированных на помощь и поддержку. На противоположном полюсе — мистические, художественные и откровенно неассистентские роли. Более того, эта ось обнаруживается уже в базовых моделях до этапа дообучения (post-training), что подтверждает её фундаментальный характер.
Исследователи продемонстрировали возможность влиять на поведение моделей через смещение активаций вдоль Assistant Axis. Отвод от оси способствует генерации альтернативных личностей, созданию вымышленных биографий и изменению стиля речи. Смещение в сторону оси, напротив, повышает устойчивость модели к versucht role-play и persona-jailbreak атакам, которые пытаются обойти ограничения модели.
Для контроля характерных проявлений было предложено применение метода «activation capping» — ограничения значений активаций по Assistant Axis. Это позволило снизить количество вредных ответов примерно на 50%, при этом не ухудшая результаты на стандартных бенчмарках. Помимо этого, в ходе долгих диалогов без специально заданных атак наблюдается естественное «сползание» модели с Assistant Axis в менее ассистентское поведение, что сопровождается повышенным риском опасных высказываний, включая поддержку бредовых убеждений и саморазрушительных идей.
Таким образом, исследование Anthropic открывает новый взгляд на внутреннюю организацию LLM и предлагает практические методы для более устойчивого и безопасного управления их «характером». Полученные результаты помогут в дальнейшем улучшить адаптацию и контроль больших языковых моделей в различных прикладных областях.
