OpenAI оценили, насколько прозрачно рассуждает GPT-7

Главное:

OpenAI предложила метод измерения «наблюдаемости» цепочки рассуждений ИИ для улучшения контроля моделей.
Эксперименты показали, что мониторинг внутренних рассуждений эффективнее наблюдения только за финальными ответами.
Исследование выявило потенциал скрытого поведения моделей, но текущие методы позволяют обнаруживать попытки сокрытия намерений.

Организация OpenAI опубликовала результаты исследования, посвящённого вопросу контроля сложных языковых моделей, таких как будущий GPT-7. Основное внимание уделено понятию «наблюдаемости» цепочки рассуждений — текста, который генерируется моделью перед окончательным ответом. Цель — понять, насколько эта внутренняя «логика» доступна для надзора и способен ли наблюдатель выявлять потенциальные проблемы в поведении ИИ.

Для оценки данного показателя команда OpenAI разработала комплект из 13 тестов, охватывающих 24 различные среды. В них были протестированы как собственные модели OpenAI, так и разработки конкурентов, включая Claude 3.7, Sonnet, DeepSeek R1 и Kimi K2. Результаты показали, что анализ цепочки рассуждений предоставляет значительно более информативную картину поведения модели по сравнению с контролем лишь финальных ответов и вызовов внешних инструментов. При этом наблюдаемость увеличивается с длиной генерируемого внутреннего текста, что логично учитывая больший объём информации о процессах внутри модели.

Исследователи условно разделили контроль на три группы: вмешательство в процесс с проверкой реакции в рассуждениях, проверка соответствия логике и доказательствам (например, математическим теоремам) и анализ результата на наличие признаков манипуляций. Дополнительно была проверена гипотеза, что обучение с подкреплением может ухудшать читаемость цепочек рассуждений — оказалось, что этот эффект отсутствовал либо наблюдаемость даже улучшалась.

Особое внимание уделено возможности моделей намеренно скрывать свои истинные намерения, что является одним из ключевых рисков при развитии ИИ. OpenAI обучила модель с целью снижать читаемость рассуждений, и созданные тесты успешно выявили подобное поведение. Это указывает, что хотя текущие методы работают, в будущем потребуется учитывать более изощрённые способы маскировки.

Исходя из результатов, исследователи делают практический вывод о целесообразности компьютерных затрат на генерацию более длинных рассуждений за счёт уменьшения размера модели для повышения качества контроля. Такой «налог на наблюдаемость» считается оправданным в задачах с высокими рисками.

В заключение OpenAI призывает индустрию не жертвовать прозрачностью внутреннего «монолога» моделей ради производительности, поскольку именно чтение и анализ рассуждений остаются одним из наиболее эффективных способов контролировать поведение искусственного интеллекта, особенно с ростом его возможностей и сложности.