- Институт Allen Institute for AI представил Olmo Hybrid — языковую модель на 7 млрд параметров с двукратной эффективностью обучения по сравнению с классическим трансформером.
- Olmo Hybrid объединяет рекуррентные слои Gated DeltaNet и слои трансформера, что обеспечивает лучшее отслеживание изменяющегося контекста и извлечение информации.
- Все веса, код, промежуточные чекпоинты и технический отчет опубликованы под лицензией Apache 2.0, что делает эту разработку уникально открытой для исследовательского сообщества.
Некоммерческий исследовательский институт Allen Institute for AI (AI2) объявил о выпуске новой языковой модели Olmo Hybrid, разработанной на основе комбинированной архитектуры и поставляющей превосходство по скорости обучения и эффективности. В ходе контролируемых экспериментов с использованием бенчмарка MMLU модель Olmo Hybrid достигла той же точности, что и классический трансформер Olmo 3, при этом была обучена на 49% меньшем объеме данных. Таким образом, модель продемонстрировала двукратное преимущество по эффективности обучения.
Ключевой особенностью архитектуры Olmo Hybrid является замена 75% слоев внимания традиционного трансформера на рекуррентные слои Gated DeltaNet — современный вариант линейной рекуррентной сети. Данная гибридная архитектура сочетает достоинства двух подходов: трансформерные слои обеспечивают точное извлечение фактов из текста, а рекуррентные — эффективное отслеживание изменяющегося состояния последовательности, что особенно важно для задач, требующих понимания динамики, например, последовательности ходов в шахматах. Каждый четвертый слой в модели остаётся трансформерным, а остальные три слоя — рекуррентными, что оптимизирует процесс обработки данных и позволяет сохранять контекст более эффективно.
В процессе обучения модель была натренирована на объемах порядка 6 триллионов токенов с помощью кластера из 512 графических процессоров Nvidia Blackwell. Помимо преимуществ в обучении, Olmo Hybrid обладает на 75% лучшей пропускной способностью и сниженным потреблением памяти при работе с длинными контекстами благодаря линейному масштабированию рекуррентных слоев, в отличие от квадратичного у классических трансформеров. Однако в ходе пост-обучения (fine-tuning) были выявлены неоднозначные результаты: модель превзошла Olmo 3 в задачах, связанных с фактологическими знаниями, но уступила в задачах, требующих глубокого длинного рассуждения. Специалисты AI2 отмечают, что имеющиеся подходы к настройке трансформеров не всегда применимы к гибридным моделям, что требует дополнительного исследования.
Olmo Hybrid отражает тенденцию последних месяцев, в ходе которой ведущие компании и организации — включая Nvidia, IBM и других — активно переходят на гибридные архитектуры в разработке языковых моделей. Особенность AI2 состоит в том, что институт публикует не только весовые коэффициенты модели, но и полные данные, исходный код обучения, промежуточные чекпоинты и детальный технический отчет под свободной лицензией Apache 2.0. Это предоставляет исследователям уникальную возможность глубоко изучить работу гибридных моделей и способствует развитию открытых исследований в области искусственного интеллекта.
