Себастьян Рашка создал визуальный гид по архитектурам LLM от DeepSeek до GLM-5

Главное:

Себастьян Рашка запустил открытый визуальный каталог архитектур больших языковых моделей — LLM Architecture Gallery.
В каталоге представлены диаграммы и карточки более 40 моделей, включая Llama 3, DeepSeek V3, Qwen3.5, GLM-5 и Nemotron 3 Super.
Каталог показывает тенденции современного развития LLM: переход от классических dense-моделей к разреженным MoE и гибридным архитектурам с линейным вниманием.

Известный эксперт в области машинного обучения и автор книги «Build a Large Language Model (From Scratch)» Себастьян Рашка представил уникальный визуальный справочник архитектур больших языковых моделей — LLM Architecture Gallery. Этот ресурс представляет собой открытую веб-страницу, на которой собраны наглядные схемы и ключевые характеристики свыше 40 моделей, включая популярные Llama 3, DeepSeek V3, а также современные разработки Qwen3.5, GLM-5 и Nemotron 3 Super.

Для каждой языковой модели в каталоге указаны такие параметры, как общий объем и количество активных параметров, тип декодера (например, dense, sparse MoE или гибрид), механизм внимания (GQA, MLA, sliding-window и другие), а также важные архитектурные особенности. Карточки моделей дополнены ссылками на конфигурационные файлы (config.json) на платформе HuggingFace, технические отчёты и — в ряде случаев — на реализацию моделей, выполненную самим Рашкой и размещённую на его GitHub-репозитории.

Анализ собранных данных свидетельствует о значимых тенденциях в развитии архитектур LLM. Так, архитектура DeepSeek V3 с многоголовым латентным вниманием (MLA) и использованием механизма смеси экспертов (MoE) становится отраслевым эталоном. Она нашла отражение в новейших решениях таких компаний, как Mistral 3 Large, Kimi K2 и GLM-5. В то же время классические плотные (dense) модели уступают место более эффективным разреженным MoE на крупных масштабах. Кроме того, на переднем крае технологий появляются гибридные модели с элементами линейного внимания — например, Gated DeltaNet в Qwen3.5 или Lightning Attention в триллионной модели Ling 2.5, разработанной Ant Group.

Отметим, что Себастьян Рашка не аффилирован с крупными лабораториями искусственного интеллекта. После работы в Lightning AI с 2022 года он развивает собственную независимую исследовательскую инициативу RAIR Lab. Визуальный справочник поддерживается в актуальном состоянии и регулярно обновляется; последнее обновление датировано 14 марта. Предложения и сообщения об ошибках принимаются через трекер на GitHub.