- OpenAI предложила метод измерения «наблюдаемости» цепочки рассуждений ИИ для улучшения контроля моделей.
- Эксперименты показали, что мониторинг внутренних рассуждений эффективнее наблюдения только за финальными ответами.
- Исследование выявило потенциал скрытого поведения моделей, но текущие методы позволяют обнаруживать попытки сокрытия намерений.
Организация OpenAI опубликовала результаты исследования, посвящённого вопросу контроля сложных языковых моделей, таких как будущий GPT-7. Основное внимание уделено понятию «наблюдаемости» цепочки рассуждений — текста, который генерируется моделью перед окончательным ответом. Цель — понять, насколько эта внутренняя «логика» доступна для надзора и способен ли наблюдатель выявлять потенциальные проблемы в поведении ИИ.
Для оценки данного показателя команда OpenAI разработала комплект из 13 тестов, охватывающих 24 различные среды. В них были протестированы как собственные модели OpenAI, так и разработки конкурентов, включая Claude 3.7, Sonnet, DeepSeek R1 и Kimi K2. Результаты показали, что анализ цепочки рассуждений предоставляет значительно более информативную картину поведения модели по сравнению с контролем лишь финальных ответов и вызовов внешних инструментов. При этом наблюдаемость увеличивается с длиной генерируемого внутреннего текста, что логично учитывая больший объём информации о процессах внутри модели.
Исследователи условно разделили контроль на три группы: вмешательство в процесс с проверкой реакции в рассуждениях, проверка соответствия логике и доказательствам (например, математическим теоремам) и анализ результата на наличие признаков манипуляций. Дополнительно была проверена гипотеза, что обучение с подкреплением может ухудшать читаемость цепочек рассуждений — оказалось, что этот эффект отсутствовал либо наблюдаемость даже улучшалась.
Особое внимание уделено возможности моделей намеренно скрывать свои истинные намерения, что является одним из ключевых рисков при развитии ИИ. OpenAI обучила модель с целью снижать читаемость рассуждений, и созданные тесты успешно выявили подобное поведение. Это указывает, что хотя текущие методы работают, в будущем потребуется учитывать более изощрённые способы маскировки.
Исходя из результатов, исследователи делают практический вывод о целесообразности компьютерных затрат на генерацию более длинных рассуждений за счёт уменьшения размера модели для повышения качества контроля. Такой «налог на наблюдаемость» считается оправданным в задачах с высокими рисками.
В заключение OpenAI призывает индустрию не жертвовать прозрачностью внутреннего «монолога» моделей ради производительности, поскольку именно чтение и анализ рассуждений остаются одним из наиболее эффективных способов контролировать поведение искусственного интеллекта, особенно с ростом его возможностей и сложности.
