- Reasoning-модели ИИ, такие как DeepSeek-R1 и QwQ-32B, имитируют внутренний диалог между «персонажами», что улучшает качество ответов.
- Внутренняя дискуссия моделей проявляется в характерных паттернах: вопросы и ответы, смена взглядов и поиск компромиссов.
- Эксперименты показали, что усиление диалоговых стратегий значительно повышает точность решения задач и ускоряет обучение.
Исследователи из Google и Чикагского университета провели детальный анализ reasoning-моделей, таких как DeepSeek-R1 и QwQ-32B, и обнаружили уникальное явление, которое они назвали «обществом мыслей» (society of thought). Данные модели фактически симулируют внутренний спор нескольких «персонажей» с различными точками зрения и специализациями непосредственно в рамках одного ответа. Такой подход позволяет моделям не просто выдавать монолог, а разыгрывать диалог, где персонажи задают вопросы друг другу, оспаривают мнения и ищут компромиссы.
Анализ более 8000 различных задач выявил, что reasoning-модели демонстрируют характерные элементы диалога: смену ролей между задающим вопросы и отвечающим, конфликты взглядов и их примирение. В отличие от них, традиционные instruction-tuned модели тех же размеров склонны к одностороннему «монологу» без внутренней дискуссии. При этом это различие не связано с длиной ответа — при сопоставимом объёме текста reasoning-модели гораздо чаще вступают во внутренний «спор».
Для проверки причинно-следственных связей учёные выделили у моделей нейронный паттерн, который они обозначили как «фичу разговорного удивления». Этот паттерн активируется в момент использования слов, меняющих точку зрения, таких как «Ох!» или «Подожди». Усиление этого сигнала почти вдвое повысило точность решения арифметических задач: с 27% до 55%. Подавление же приводило к значительному ухудшению результатов. Такие улучшения связаны с тем, что модели активнее проверяют свои шаги, возвращаются к предыдущим этапам и разбивают задачи на подзадачи, применяя когнитивные стратегии, характерные для сложного умственного процесса.
Дополнительный эксперимент показал, что при обучении модели, использующей синтетические диалоги между «персонажами», достигается более быстрый рост точности по сравнению с классическими моделями, на которых применяется метод monologue chain-of-thought. Это происходит несмотря на идентичность обучающих данных и правильных ответов. Исследователи делают вывод, что механизм внутреннего диалога в reasoning-моделях воспроизводит принципы коллективного интеллекта, где разнообразие мнений способствует выявлению ошибок и более глубокому поиску решений, аналогично социальным дискуссиям между людьми.
Данное исследование открывает новые перспективы для создания более эффективных и когнитивно сложных моделей искусственного интеллекта, ориентированных на диалоговые и коллективные стратегии мышления.
