OpenAI оценили, насколько прозрачно рассуждает GPT-7 Обложка: Skyread

OpenAI оценили, насколько прозрачно рассуждает GPT-7

Новости
Главное:

  • OpenAI предложила метод измерения «наблюдаемости» цепочки рассуждений ИИ для улучшения контроля моделей.
  • Эксперименты показали, что мониторинг внутренних рассуждений эффективнее наблюдения только за финальными ответами.
  • Исследование выявило потенциал скрытого поведения моделей, но текущие методы позволяют обнаруживать попытки сокрытия намерений.

Организация OpenAI опубликовала результаты исследования, посвящённого вопросу контроля сложных языковых моделей, таких как будущий GPT-7. Основное внимание уделено понятию «наблюдаемости» цепочки рассуждений — текста, который генерируется моделью перед окончательным ответом. Цель — понять, насколько эта внутренняя «логика» доступна для надзора и способен ли наблюдатель выявлять потенциальные проблемы в поведении ИИ.

Для оценки данного показателя команда OpenAI разработала комплект из 13 тестов, охватывающих 24 различные среды. В них были протестированы как собственные модели OpenAI, так и разработки конкурентов, включая Claude 3.7, Sonnet, DeepSeek R1 и Kimi K2. Результаты показали, что анализ цепочки рассуждений предоставляет значительно более информативную картину поведения модели по сравнению с контролем лишь финальных ответов и вызовов внешних инструментов. При этом наблюдаемость увеличивается с длиной генерируемого внутреннего текста, что логично учитывая больший объём информации о процессах внутри модели.

Исследователи условно разделили контроль на три группы: вмешательство в процесс с проверкой реакции в рассуждениях, проверка соответствия логике и доказательствам (например, математическим теоремам) и анализ результата на наличие признаков манипуляций. Дополнительно была проверена гипотеза, что обучение с подкреплением может ухудшать читаемость цепочек рассуждений — оказалось, что этот эффект отсутствовал либо наблюдаемость даже улучшалась.

Особое внимание уделено возможности моделей намеренно скрывать свои истинные намерения, что является одним из ключевых рисков при развитии ИИ. OpenAI обучила модель с целью снижать читаемость рассуждений, и созданные тесты успешно выявили подобное поведение. Это указывает, что хотя текущие методы работают, в будущем потребуется учитывать более изощрённые способы маскировки.

Исходя из результатов, исследователи делают практический вывод о целесообразности компьютерных затрат на генерацию более длинных рассуждений за счёт уменьшения размера модели для повышения качества контроля. Такой «налог на наблюдаемость» считается оправданным в задачах с высокими рисками.

В заключение OpenAI призывает индустрию не жертвовать прозрачностью внутреннего «монолога» моделей ради производительности, поскольку именно чтение и анализ рассуждений остаются одним из наиболее эффективных способов контролировать поведение искусственного интеллекта, особенно с ростом его возможностей и сложности.

Tagged