Cursor ускорила поиск по коду: ИИ-агенты ждут меньше

Главное:

Cursor представила способ ускорить поиск по регулярным выражениям в больших кодовых базах.
По данным компании, обычный поиск через ripgrep в крупных репозиториях иногда занимает больше 15 секунд.
Новый подход строится на локальном индексе: он хранится на компьютере пользователя и сокращает число файлов для полной проверки.

Cursor рассказала о новом способе ускорить regex-поиск по коду — то есть поиск по шаблонам текста — в больших репозиториях. Компания связывает это с ростом числа ИИ-агентов для программирования, которым постоянно нужно находить в проекте функции, сигнатуры и настройки. Решение уже описано как часть инфраструктуры, которая должна уменьшить задержки при работе с кодом.

Как отмечает Cursor, в крупных монорепозиториях обычный поиск через ripgrep в отдельных случаях может занимать более 15 секунд. Для человека это пауза в работе, а для ИИ-агента — задержка почти на каждом шаге, когда нужно быстро собрать контекст перед следующим действием. Поэтому компания решила ускорять не только сами модели, но и операции, которые они выполняют постоянно.

Основа подхода — локальная индексация. Вместо полного прохода по всей кодовой базе при каждом запросе система заранее строит индекс на устройстве пользователя. Затем этот индекс помогает быстро отобрать только те файлы, где совпадение действительно возможно. После этого уже запускается обычная проверка регулярным выражением, но не по всему проекту, а по ограниченному набору файлов.

Для предварительного отбора Cursor использует триграммы — последовательности из трех символов, которые давно применяются в системах текстового поиска. Но для очень больших проектов, по словам компании, одних триграмм мало. Поэтому к ним добавлены sparse n-grams, или разреженные n-граммы, а также вероятностные маски. Эти методы помогают отсечь лишние файлы и уменьшить объем данных, которые придется читать целиком.

Cursor отдельно подчеркивает, что индексы хранятся локально. Это снижает зависимость от сети и помогает быстрее учитывать недавние изменения в коде, включая правки, которые агент только что внес сам. Для больших репозиториев это важно: если индекс быстро устаревает, выигрыш по скорости заметно падает.

Контекст

На фоне роста AI IDE и ИИ-агентов для программирования все важнее становится не только генерация кода, но и скорость поиска контекста внутри проекта. Cursor прямо указывает, что узким местом могут быть базовые операции, которые агент повторяет много раз.

Что это значит на практике

Пользователи крупных репозиториев могут получить меньше задержек при поиске по проекту и работе ИИ-ассистента. Для команд с большими кодовыми базами это означает более быстрый доступ к нужным участкам кода без постоянного полного сканирования всего репозитория.

Источники