Представлен Sonnet 4.6 — чуть уступает Opus 4.6

Главное:

Anthropic представила обновлённую модель Claude Sonnet 4.6, которая приближается по качеству к флагману Opus 4.6, оставаясь при этом в пять раз дешевле.
Sonnet 4.6 на некоторых бенчмарках, включая офисные задачи, превосходит Opus 4.6 и демонстрирует значительный прогресс на сложных нестандартных тестах ARC-AGI-2.
Модель получила статус дефолтной в сервисах claude.ai и Claude Cowork и продемонстрировала высокий уровень управления компьютером, сравнимый с человеческим.

Компания Anthropic представила обновлённую версию своей средней модели искусственного интеллекта — Claude Sonnet 4.6. Новинка демонстрирует показатели, сопоставимые с флагманской моделью Opus 4.6, и в некоторых заданиях даже превосходит её. При этом цена использования Sonnet осталась на прежнем уровне — 3 или 15 долларов за миллион токенов, что в пять раз дешевле, чем у Opus.

На бенчмарке SWE-bench Verified, ориентированном на агентное программирование, Sonnet 4.6 набрал 79,6%, в то время как Opus 4.6 — 80,8%. В задачах управления компьютером (OSWorld) результаты моделей почти идентичны — 72,5% против 72,7%. Интересно, что на офисных задачах Sonnet 4.6 даже превзошёл Opus, набрав 1633 балла Elo против 1606 у флагмана. Значительный прогресс модель показала на сложном тесте нестандартных задач ARC-AGI-2, где её результат вырос с 13,6% в версии Sonnet 4.5 до 58,3% в новой версии, что свидетельствует о более чем четырёхкратном улучшении.

Sonnet 4.6 стал моделью по умолчанию в сервисах claude.ai и Claude Cowork для всех пользователей, включая бесплатных и подписчиков Pro. В бета-версии модели доступно контекстное окно длиной до 1 миллиона токенов. Компания отмечает, что многие разработчики с ранним доступом предпочитают именно Sonnet 4.6, а не предыдущую версию Opus 4.5, выпущенную в ноябре 2025 года.

Особое внимание Anthropic уделяет развитию возможностей по управлению компьютером. Эта функция была впервые представлена в октябре 2024 года и на тот момент оценивалась как экспериментальная и склонная к ошибкам. За 16 месяцев результаты Sonnet на тестах OSWorld существенно улучшились и достигли 72,5%, что по мнению компании соответствует человеческому уровню в задачах навигации по таблицам и заполнения веб-форм.

Релиз Sonnet 4.6 отражает общую тенденцию в индустрии, когда модели среднего класса догоняют по качеству флагманы прошлых поколений. В сравнении с конкурентами, GPT-5.2 Pro показывает лучшие результаты по reasoning на уровне graduate (93,2% против 89,9%), но уступает Sonnet 4.6 в нестандартных задачах ARC-AGI-2 и офисных задачах. Модель Gemini 3 Pro проигрывает Sonnet 4.6 по большинству параметров, за исключением визуального мышления без инструментов (81% против 74,5%).