Обновления Claude Opus 4.6 и Sonnet 4.6 улучшили веб-поиск

Главное:

Anthropic обновила инструменты веб-поиска для моделей Claude (версии Opus 4.6 и Sonnet 4.6) с внедрением технологии dynamic filtering.
Dynamic filtering позволяет моделям генерировать и запускать код для программной фильтрации результатов поиска ещё до загрузки в контекст, что повышает точность и снижает нагрузку на токены.
Обновления значительно улучшили результаты на бенчмарках BrowseComp и DeepsearchQA, а новые функции стали доступны разработчикам через API.

Компания Anthropic представила значительное обновление своих моделей Claude — Opus 4.6 и Sonnet 4.6, улучшив инструменты веб-поиска web search и web fetch с помощью новой технологии dynamic filtering. Этот метод позволяет искусственному интеллекту самостоятельно создавать и выполнять код, который отфильтровывает избыточные данные и загружает в контекст только релевантную информацию, что резко повышает эффективность обработки запросов.

Ранее агенты Claude загружали полные HTML-страницы, после чего пытались анализировать необработанные данные, что потребляло много ресурсов и ограничивало точность. С внедрением dynamic filtering модель значительно оптимизирует работу — ненужное отсекается программно в режиме реального времени. Это нововведение демонстрирует очевидные преимущества: на тесте BrowseComp от OpenAI Opус 4.6 с новым фильтром показал результат 61,6% против 45,3% без фильтрации, а Sonnet 4.6 — 46,6% против 33,3%. На исследовательском бенчмарке DeepsearchQA от Google DeepMind F1-скор Opus 4.6 вырос с 69,8% до 77,3%.

В целом точность увеличилась примерно на 11%, а потребление входных токенов снизилось на 24% — значительный прогресс, учитывая, что меньшее использование токенов снижает издержки при работе с моделями. Anthropic подчёркивает, что динамическая фильтрация является развитием подхода, при котором ИИ генерирует и исполняет код «на лету», а не просто оперирует сырой информацией. Этот метод уже получил положительную оценку в других системах, например, Quora испытала его в платформе Poe, отметив лидирующие показатели Opus 4.6 в своих внутренних тестах.

Помимо улучшения веб-поиска, Anthropic объявила о выводе в статус общей доступности (GA) нескольких инструментов для разработчиков, включая исполнение кода, междуразговорную память, вызов сторонних функций, а также поиск и примеры использования инструментов. Все эти возможности доступны через API совместно с моделями Opus 4.6 и Sonnet 4.6, которые компания выпустила с интервалом в 12 дней, что свидетельствует о динамичной конкуренции с OpenAI и Google в области ИИ.

Новые версии инструментов web search и web fetch включены по умолчанию для моделей Opus 4.6 и Sonnet 4.6 в API Anthropic. При этом компания отмечает, что экономия токенов зависит от конкретных задач: для Sonnet 4.6 расход токенов снизился на обоих бенчмарках, в то время как для Opus 4.6 нагрузка возросла из-за более сложного кода фильтрации. В связи с этим Anthropic рекомендует пользователям самостоятельно оценивать эффективность обновлений на своих данных.

Читайте также