- Исследование выявило, что модели DeepSeek-R1 и GPT-OSS часто демонстрируют «театральное мышление» — уверены в ответе задолго до окончания рассуждений.
- На простых задачах модель практически сразу знает ответ, но продолжает генерировать длинные цепочки рассуждений без реальной необходимости.
- Применение внутреннего зонда активности позволяет значительно сокращать количество генерируемых токенов без потери точности.
Исследователи из Goodfire AI совместно с Гарвардским университетом провели анализ поведения reasoning-моделей DeepSeek-R1 (671 млрд параметров) и GPT-OSS (120 млрд параметров), выявив явление, которое они назвали «театральным мышлением». Суть его в том, что модели часто достигают высокой уверенности в правильности ответа — порядка 90% — на самых первых шагах, но продолжают генерировать длинные цепочки логических рассуждений (chain-of-thought), как если бы процесс мышления ещё не завершился.
Для изучения этой особенности были применены три методики: анализ attention-механизмов скрытых слоёв модели, прерывание генерации с требованием немедленного ответа, а также внешний мониторинг цепочек рассуждений. На простых тестах из набора MMLU, содержащих в основном задачи на проверку знаний, обнаружился значительный разрыв между моментом, когда активность модели свидетельствует о ее уверенном ответе, и фактическим появлением ответа в тексте. Таким образом, модель фактически «знает» ответ с самого начала, однако текстовые рассуждения продолжаются, создавая впечатление продолжающегося раздумья.
Другая картина наблюдалась на сложных вопросах из GPQA-Diamond, где требовалось решать задачи уровня аспирантуры в областях физики, химии и биологии. Здесь уверенность модели возрастает постепенно в ходе рассуждений, что свидетельствует о подлинном процессе мышления, где chain-of-thought действительно помогает прийти к правильному ответу.
Особый интерес вызвали моменты разворота рассуждений — когда модель внезапно признает ошибку или меняет ход мысли. Такие «аха»-моменты совпадают с реальной неуверенностью, фиксируемой внутренними пробами активности, и практически отсутствуют в ответах, где модель изначально уверенна. Это значит, что backtracking и самокоррекция модели отражают реальные внутренние сомнения, а не являются простым синтаксическим украшением.
В практическом плане исследование предлагает эффективный способ оптимизации генерации ответов: если внутренний зонд указывает на достижение высокой уверенности, генерацию цепочки рассуждений можно остановить досрочно. По экспериментам, в наборе MMLU это позволяет экономить до 80% токенов при минимальном снижении точности (оставляя 97%), а в GPQA-Diamond сокращать примерно 30% токенов с сохранением качества. Такой подход существенно снижает вычислительные затраты без ухудшения результатов.
В завершение исследования отмечается, что рассмотренные модели DeepSeek-R1 и GPT-OSS уже уступают в производительности более свежим инстанциям ИИ, которые, вероятно, применяют внутренние методы сокращения избыточных рассуждений и оптимизации расхода токенов.
