- Стартап Thinking Machines Lab разработал метод «дистилляции по собственной политике» для удешевления дообучения ИИ моделей до 30 раз.
- Метод позволяет модели самостоятельно выявлять и корректировать ошибки на каждом шаге рассуждения, что сокращает время и ресурсы обучения.
- Технология помогает преодолеть проблему катастрофического забывания, сохраняя как новые знания, так и качество поведения ИИ при взаимодействии с пользователем.
Компания Thinking Machines Lab под руководством Миры Мурати представила инновационный подход к дообучению моделей искусственного интеллекта, существенно снижающий стоимость и повышающий эффективность этого процесса. В традиционных методах обучения с подкреплением обратная связь моделям даётся лишь в конце выполнения задачи, что усложняет локализацию ошибок и требует значительных вычислительных ресурсов. Новая методика «дистилляция по собственной политике» строится на том, что дообучаемая модель самостоятельно выполняет задачу, оценивая каждый шаг, после чего более мощная модель-наставник анализирует и помечает моменты, где модель допустила ошибку или сделала разумный ход.
На опыте решения сложных математических задач команда Thinking Machines Lab показала эффективность своего подхода: сопоставимые с традиционными методами результаты достигались примерно за 1800 часов работы видеоускорителей, тогда как классический метод обучения с подкреплением команды Qwen3 требовал около 17 920 часов, что свидетельствует о снижении затрат почти в десять раз. В отдельных случаях экономия достигает 30-кратного уменьшения времени и вычислительных ресурсов.
Кроме того, предложенный метод помогает решать важную проблему катастрофического забывания — явления, при котором обновление модели новыми знаниями ведёт к утрате ранее приобретённых навыков и ухудшению качества общения. При использовании дистилляции по собственной политике новая версия модели проходит через этап переобучения с ролью учителя, выполняемой более ранней «воспитанной» версией. Это позволяет сохранять новые знания, при этом сохраняя аккуратность, вежливость и послушание инструкциям, возвращая модели желаемые поведенческие характеристики.
Исследование Thinking Machines Lab открывает перспективы создания циклических схем непрерывного обучения, когда новые данные можно интегрировать в модель без потери качества взаимодействия с пользователем. Этот подход может заметно продвинуть развитие адаптивных и устойчивых ИИ-систем, доступных для широкого круга коммерческих приложений.
