- Китайская компания DeepSeek представила метод mHC, позволяющий значительно увеличить пропускную способность нейросетей без увеличения нагрузки на память.
- Новый способ обучения основан на математическом алгоритме, контролирующем усиление сигнала в сети, что обеспечивает стабильность и высокую точность моделей с миллиардами параметров.
- Метод уже протестирован на моделях с 3, 9 и 27 миллиардами параметров и, вероятно, применяется в разработке новой крупной модели DeepSeek V4, запуск которой ожидается в ближайшие месяцы.
Китайская компания DeepSeek опубликовала научную работу, в которой предложила инновационный способ обучения нейросетей под названием mHC (Manifold-Constrained Hyper-Connections). Этот метод призван решить ключевую проблему современных глубоких нейросетей — баланс между увеличением пропускной способности и контролем потребления памяти.
Современные нейросети состоят из множества слоев, передающих информацию последовательно. При увеличении количества слоев возрастает риск искажения сигнала, поскольку он многократно трансформируется. Для смягчения этой проблемы в 2015 году была разработана архитектура ResNet с остаточными связями, которые передают «чистую» часть сигнала через слои, предотвращая затухание. В 2024 году исследователи ByteDance предложили гиперсвязи — расширение этих остаточных каналов, существенно увеличивающее поток информации. Однако гиперсвязи несут за собой сложность: сигнал может чрезмерно усиливаться, что вызывает нестабильность в обучении и рост аппаратных требований.
DeepSeek предложила компромиссный подход — метод mHC, который функционирует как строгий регулятор потока данных. Для визуализации можно представить автомобильную трассу: обычные гиперсвязи подобны внезапному расширению дороги до десяти полос без разметки или регулировки, что приводит к хаосу и авариям. В отличие от этого, mHC вводит «умные светофоры» и жесткие правила, управляющие движением, не позволяя сигналу выходить из-под контроля.
Ключевым элементом методики служит проекция на многообразие — математическая операция, поддерживающая сбалансированное усиление сигнала и предотвращающая «взрыв» значений. Это обеспечивает высокую стабильность обучения и позволяет моделям с огромным числом параметров достигать улучшенных результатов на различных тестах без существенного увеличения вычислительной нагрузки и объёма памяти.
Команда из 19 исследователей протестировала этот метод на моделях с 3, 9 и 27 миллиардами параметров, продемонстрировав его эффективность. По словам авторов, mHC может устранить текущие ограничения архитектур глубокого обучения и открыть новые направления для развития искусственного интеллекта.
По слухам, метод mHC уже применяется в разработке новой крупной модели DeepSeek V4, релиз которой ожидается в феврале-марте 2025 года. Если представленные преимущества подтвердятся в коммерческих решениях, это может значительно сократить технологическое отставание китайских компаний в области ИИ по сравнению с зарубежными конкурентами, в частности американскими.
