DeepSeek и GPT-OSS обвиняют в «театральном мышлении»

Главное:

Исследование выявило, что модели DeepSeek-R1 и GPT-OSS часто демонстрируют «театральное мышление» — уверены в ответе задолго до окончания рассуждений.
На простых задачах модель практически сразу знает ответ, но продолжает генерировать длинные цепочки рассуждений без реальной необходимости.
Применение внутреннего зонда активности позволяет значительно сокращать количество генерируемых токенов без потери точности.

Исследователи из Goodfire AI совместно с Гарвардским университетом провели анализ поведения reasoning-моделей DeepSeek-R1 (671 млрд параметров) и GPT-OSS (120 млрд параметров), выявив явление, которое они назвали «театральным мышлением». Суть его в том, что модели часто достигают высокой уверенности в правильности ответа — порядка 90% — на самых первых шагах, но продолжают генерировать длинные цепочки логических рассуждений (chain-of-thought), как если бы процесс мышления ещё не завершился.

Для изучения этой особенности были применены три методики: анализ attention-механизмов скрытых слоёв модели, прерывание генерации с требованием немедленного ответа, а также внешний мониторинг цепочек рассуждений. На простых тестах из набора MMLU, содержащих в основном задачи на проверку знаний, обнаружился значительный разрыв между моментом, когда активность модели свидетельствует о ее уверенном ответе, и фактическим появлением ответа в тексте. Таким образом, модель фактически «знает» ответ с самого начала, однако текстовые рассуждения продолжаются, создавая впечатление продолжающегося раздумья.

Другая картина наблюдалась на сложных вопросах из GPQA-Diamond, где требовалось решать задачи уровня аспирантуры в областях физики, химии и биологии. Здесь уверенность модели возрастает постепенно в ходе рассуждений, что свидетельствует о подлинном процессе мышления, где chain-of-thought действительно помогает прийти к правильному ответу.

Особый интерес вызвали моменты разворота рассуждений — когда модель внезапно признает ошибку или меняет ход мысли. Такие «аха»-моменты совпадают с реальной неуверенностью, фиксируемой внутренними пробами активности, и практически отсутствуют в ответах, где модель изначально уверенна. Это значит, что backtracking и самокоррекция модели отражают реальные внутренние сомнения, а не являются простым синтаксическим украшением.

В практическом плане исследование предлагает эффективный способ оптимизации генерации ответов: если внутренний зонд указывает на достижение высокой уверенности, генерацию цепочки рассуждений можно остановить досрочно. По экспериментам, в наборе MMLU это позволяет экономить до 80% токенов при минимальном снижении точности (оставляя 97%), а в GPQA-Diamond сокращать примерно 30% токенов с сохранением качества. Такой подход существенно снижает вычислительные затраты без ухудшения результатов.

В завершение исследования отмечается, что рассмотренные модели DeepSeek-R1 и GPT-OSS уже уступают в производительности более свежим инстанциям ИИ, которые, вероятно, применяют внутренние методы сокращения избыточных рассуждений и оптимизации расхода токенов.