Anthropic представила Claude Opus 4.6 с контекстом в 1 млн токенов

Главное:

Anthropic выпустила обновленную модель Claude Opus 4.6 с рекордным контекстным окном до 1 миллиона токенов.
Opus 4.6 превосходит GPT-5.2 от OpenAI и предыдущую версию Opus 4.5 по нескольким ключевым бенчмаркам.
Модель получила новые инструменты для углубленного анализа задач и поддержку параллельной работы нескольких агентов в Claude Code.

Компания Anthropic представила Claude Opus 4.6 — новое обновление своей флагманской языковой модели, которое стало прорывом в обработке больших объемов информации. Впервые для серии Opus введена бета-версия с контекстным окном на уровне одного миллиона токенов, а максимальный выход модели достиг 128 тысяч токенов. Благодаря этому значительно улучшились качества работы с длинным контекстом, что долгое время являлось существенной проблемой в индустрии ИИ под названием «context rot» — ухудшение точности ответов при увеличении объема поступающего текста. На тесте MRCR v2 при работе с миллионным контекстом Opus 4.6 достиг впечатляющих 76% точности, тогда как предыдущая версия Sonnet 4.5 показала лишь 18,5%.

Новый Claude Opus 4.6 не только продемонстрировал значительный прогресс в удержании фокуса и планировании задач, но и успешно обошел по производительности модели GPT-5.2 от OpenAI и собственный предыдущий Opus 4.5 на ряде рабочих бенчмарков. Модель заняла первое место в рейтингах Terminal-Bench 2.0 (агентное программирование), Humanity’s Last Exam (мультидисциплинарные рассуждения) и BrowseComp (поиск сложной информации в интернете).

Для разработчиков были представлены новые функции: Adaptive Thinking позволяет модели интеллектуально регулировать глубину рассуждений, а параметр effort предлагает четыре уровня баланса между качеством, скоростью и стоимостью обработки. Также реализована автоматическая компрессия старого контекста (Context compaction) для более эффективной работы с длинными сессиями. Из ключевых продуктовых нововведений стоит выделить функцию agent teams в Claude Code, при которой несколько агентов параллельно и скоординированно выполняют задачи с возможностью передачи управления человеку. Это особенно полезно для комплексных процессов, например ревью больших кодовых баз. Вспомогательные инструменты также расширены: Claude in Excel научился самостоятельно планировать действия и работать с неструктурированными данными, а в исследовательском режиме представлен Claude in PowerPoint с возможностью сохранения корпоративного стиля.

Ранние партнеры Anthropic уже отметили высокую эффективность Opus 4.6. Так, Rakuten за один день смогли автономно закрыть 13 задач и распределить ещё 12 по нужным командам, используя модель для мониторинга и эскалации вопросов. Норвежский суверенный фонд NBIM провел 40 слепых сравнений в области кибербезопасности, где Opus 4.6 победил в 38 случаях, превзойдя версии Claude 4.5.

Отмечается, что улучшение мощности модели не сказалось негативно на безопасности: Opus 4.6 демонстрирует самый низкий уровень ложных отказов в ответах на безобидные запросы, сохраняя профиль безопасности предыдущих моделей. Стоимость использования сохранилась на уровне $5 и $25 за миллион токенов на входе и выходе соответственно, с возможностью премиального тарифа при превышении 200 тысяч входных токенов. Доступ к модели открыт через сайт claude.ai, API и облачные платформы.