- Около 70% новых препринтов по программной инженерии на arXiv связаны с LLM.
- Для анализа изучили 15 899 статей из подкатегории cs.SE, опубликованных с 1 января 2022 года.
- Пики упоминаний LLM в заголовках и аннотациях пришлись на конец 2024-го и 2025 года.
На arXiv тема больших языковых моделей заняла центральное место в исследованиях по программной инженерии. По данным анализа подкатегории cs.SE, сейчас чуть более 70% новых статей так или иначе связаны с LLM. Речь идёт о препринтах, опубликованных с 2022 года, то есть о материалах, которые появляются до выхода рецензируемой версии и потому хорошо показывают текущие интересы исследователей.
Основой для подсчёта стали 15 899 статей, загруженных в cs.SE с 1 января 2022 года. Для сбора данных использовали пакет arxivscraper, который обращается к API arXiv и выгружает метаданные публикаций. Затем автор анализа искал в заголовках и аннотациях упоминания «LLM» и «large language model», а также связанных терминов вроде «AI», «artificial intelligence» и «agent».
По графикам видно, что формулировка «large language model» чаще встречалась в заголовках к концу 2024 года, а сокращение LLM вышло на пик к концу 2025-го. В аннотациях плато или пик популярности LLM тоже приходятся на конец 2025 года. Это говорит не только о росте интереса к теме, но и о том, что сама терминология в публикациях со временем сместилась в сторону более короткого и привычного обозначения.
Если считать статьи, где в заголовке или аннотации встречаются сразу несколько связанных с LLM выражений, доля таких работ поднимается выше 70%. Автор исходного анализа допускает, что при сохранении нынешнего темпа роста через 18 месяцев почти все новые статьи в cs.SE будут касаться этой темы. Но он же оговаривает, что рост, скорее всего, замедлится и не дойдёт до 100%.
Осенью arXiv сообщил, что перестанет принимать по информатике обзорные статьи и аналитические доклады без подтверждённого рецензирования. Платформа связала это решение с наплывом слабых материалов, созданных с помощью ИИ.
Для исследователей и команд разработки это означает, что значительная часть свежих идей и экспериментов в программной инженерии сейчас крутится вокруг LLM. Одновременно растёт и шум: ориентироваться в потоке публикаций становится сложнее, поэтому качество отбора источников выходит на первый план.