- Исследователи DeepSeek создали модуль памяти Engram для языковых моделей, который сохраняет статические паттерны, такие как имена и устойчивые выражения.
- Использование Engram улучшило качество рассуждений моделей, увеличив их эффективно «глубину», в то время как знание фактов повысилось лишь незначительно.
- Эксперименты показали, что оптимальное распределение ресурсов между экспертами MoE и памятью составляет примерно 75-80% на MoE и 20-25% на память, что обеспечивает лучшие результаты.
Исследовательская команда DeepSeek анонсировала разработку Engram — специализированного модуля памяти для языковых моделей, который предназначен для хранения статических паттернов, таких как имена собственные и устойчивые выражения. Концепция направлена на то, чтобы освободить модель от необходимости каждый раз повторно «вычислять» знакомые сочетания токенов, заменяя этот процесс мгновенным доступом к готовым представлениям из памяти.
По сути, при встрече с фразой вроде «Александр Македонский» Engram извлекает соответствующий эмбеддинг, не задействуя глубокие слои внимания модели. При этом модуль способен различать контекст — например, если речь идёт о соседнем Александре, он уменьшает влияние сохранённого паттерна. Такой подход оптимизирует работу модели и открывает новые возможности для обработки информации.
Результаты применения Engram вызвали интересный парадокс: улучшение рассуждений оказалось существенно выше, чем рост знания фактов. Анализ с использованием LogitLens показал, что за счёт памяти ранние слои модели освобождаются от рутинной функции, что позволяет им работать как более глубокие слои в традиционной архитектуре. Таким образом, «эффективная глубина» модели увеличивается, что положительно сказывается на решении сложных задач.
Эксперименты проводились на модели с 27 миллиардами параметров (из них 3,8 млрд активных). По сравнению с обычной моделью MoE, вариант с Engram продемонстрировал превосходство практически во всех тестах, включая сложные бенчмарки рассуждений (BBH), программирования (HumanEval) и фактологической точности (MMLU, CMMLU). Вместе с этим улучшилась работа с длинными контекстами: точность на тесте Multi-Query NIAH выросла с 84,2% до 97,0%.
Авторы также обнаружили «U-образный» закон оптимального распределения ресурсов, когда 75-80% мощности стоит выделять на MoE-экспертов, а 20-25% — на память. Отклонение от этого баланса негативно влияет на качество результатов.
Появление данной разработки происходит на фоне слухов о возможном скором выходе DeepSeek V4 — вероятно, новая версия модели интегрирует возможности памяти Engram, что может кардинально повысить эффективность и интеллектуальные способности языковых моделей.
