- Google предложила новую парадигму обучения искусственного интеллекта — Nested Learning, основанную на иерархии вложенных задач с разным ритмом обновления параметров.
- Метод позволяет ИИ сохранять ранее усвоенные знания, устраняя проблему так называемого «катастрофического забывания» при дообучении на новых данных.
- Для демонстрации подхода создан прототип рекуррентной архитектуры Hope, показавший лучшие результаты в языковом моделировании и устойчивость к долгому контексту по сравнению с существующими моделями.
Одним из ключевых вызовов в развитии современных систем искусственного интеллекта является их склонность к «катастрофическому забыванию»: при обучении на новых данных модели теряют ранее приобретённые знания. Это серьёзно ограничивает возможности постоянного обучения, особенно важного для бизнес-задач, где источники информации меняются регулярно. Например, классической проблемой стало то, что некоторые модели искусственного интеллекта по-прежнему называют Джо Байдена президентом США, хотя это уже неактуально.
В ответ на это исследователи Google предложили инновационный подход под названием Nested Learning. В отличие от традиционного однократного и непрерывного процесса обучения, Nested Learning рассматривает обучение как систему из нескольких вложенных задач, каждая из которых обновляется с индивидуальной частотой. На верхнем уровне находятся медленные компоненты, аккумулирующие фундаментальные и стойкие знания, актуальные на протяжении долгого времени. В нижних уровнях — легковесные компоненты, которые быстро адаптируются к изменениям в данных.
Технология также предполагает использование оптимизаторов, которые функционируют как ассоциативная память, запоминая, что и каким образом было исправлено ранее. Такой подход позволяет эффективно впитывать новое знание, не стирая старое, адресуя главную проблему большинства современных моделей машинного обучения.
Для демонстрации возможностей Nested Learning Google разработала прототип — рекуррентную архитектуру Hope. Она напоминает Titans, но обладает способностью к самомодификации и работе с контекстным спектром памяти. В экспериментах Hope превосходила традиционные трансформеры и модели класса RNN/SSM по точности в языковом моделировании и показала высокую устойчивость к обработке длинных контекстов.
Несмотря на обнадёживающие результаты, исследователи подчеркивают, что Hope — пока лишь прототип новой технологии. Для более детальной оценки её эффективности необходимы независимые бенчмарки и тщательный анализ вычислительных затрат. Если концепция Nested Learning подтвердит себя на практике, это может значительно продвинуть создание ИИ-агентов, способных непрерывно дообучаться и работать с широкими контекстами, что особенно важно для динамично меняющихся бизнес-сценариев.
