Галлюцинации недели: Opus 4.6, GPT-5.3-Codex и Супербоул

Главное:

Anthropic и OpenAI одновременно представили новые версии своих флагманских моделей AI — Claude Opus 4.6 и GPT-5.3-Codex.
Claude Opus 4.6 демонстрирует значительный прогресс в абстрактном мышлении и способен без интернета создавать сложные программные проекты, хотя пока с багами.
Anthropic неожиданно запустил рекламу на Super Bowl, высмеивая планы OpenAI по введению рекламы в ChatGPT, что вызвало живую реакцию Сэма Альтмана.

В начале февраля 2026 года корпорации Anthropic и OpenAI почти синхронно анонсировали новые версии своих прорывных искусственных интеллектов: Claude Opus 4.6 и GPT-5.3-Codex соответственно. Такой «гонки вооружений» в сфере языковых моделей, напоминающей одновременный старт Формулы-1, давно не наблюдалось. Важно подчеркнуть, что Anthropic представил именно Opus 4.6 в бета-версии с возможностью обработки контекста до миллиона токенов, а OpenAI выпустил Codex-версию новой линейки GPT-5.3, ориентированную на кодинг и разработку.

Claude Opus 4.6 выделяется значительным прогрессом при решении задач абстрактного мышления, что подтверждается улучшением результата в тесте ARC-AGI-2 с 37.6% до 68.8% (для сравнения, человек достигает примерно 95%). Особый интерес у специалистов вызвал эксперимент, в котором агентские команды Opus собрали с нуля сложный C-компилятор на 100 тысячах строк кода, который способен загружать ядро Linux 6.9 и компилировать крупные проекты вроде QEMU и FFmpeg. Однако нельзя не отметить наличие багов — сборка простейшей программы Hello World пока не удаётся, что свидетельствует о текущем уровне развития технологий и необходимости дальнейшей доработки.

Помимо прочего, Opus обнаружил более 500 zero-day уязвимостей в известных open-source проектах, включая проблемы, которые остаются неизвестными на протяжении многих лет. Для пользователей, кто ценит скорость, Anthropic анонсировал версию Opus 4.6 Fast — она в 2.5 раза быстрее стандартной, но при этом её эксплуатация обходится в 6 раз дороже, что ставит перед заказчиками вопросы эффективности и целесообразности.

GPT-5.3-Codex, разработанный OpenAI в сотрудничестве с NVIDIA, получил почти трехкратное ускорение инференса при поддержке новой аппаратной платформы GB200, и уже набрал более миллиона активных пользователей за первую неделю после релиза. Его результаты в тестах Terminal-Bench 2 (77.3%) превосходят показатели Opus. Новая версия показала улучшение в отладке собственного тренировочного пайплайна и работает ощутимо быстрее, чем предыдущая Codex 5.2, хотя прирост скорости не столь драматичен, как заявлено.

Событием недели стала также провокационная рекламная кампания Anthropic на Super Bowl, в которой компания высмеяла планы OpenAI по введению рекламы в бесплатных и дешёвых тарифных планах ChatGPT. Представители Anthropic открыто заявили, что подобные методики не будут применяться в продуктах Claude. В ответ Сэм Альтман подчеркнул, что больше техасских пользователей пользуются ChatGPT бесплатно, чем всего пользователей Claude по США. Эта публичная перепалка иллюстрирует растущую конкурентную напряжённость на рынке AI.

Профессионалы, интересующиеся локальным хостингом моделей AI, отметят, что LM Studio версии 0.4.1 теперь поддерживает Anthropic-совместимый API, что позволяет направлять запросы Claude Code на локальные модели форматов GGUF и MLX, упрощая интеграцию и эксперименты с различными вариантами развертывания.

Также в индустрии развивается концепция Context Graphs — технологии, которая позволяет сохранять всю историю решений и ошибок агента в виде графа для последующего анализа и повторного использования. Несмотря на скептицизм некоторых экспертов, таких как Dharmesh Shah из HubSpot, данная идея получила поддержку нескольких компаний и уже реализуется через спецификацию Agent Trace. Важность такой инновации заключается в возможности улучшения качества работы агентов и оптимизации процесса обучения.

Наконец, стоит отметить, что Андрей Карпаты, автор термина «вайб кодинг», предложил новый концепт — Agentic Engineering, который олицетворяет более структурированный и координированный подход к работе с AI-агентами. Несмотря на амбициозность идеи, он признаёт, что полностью автономная разработка всё ещё далека, и в настоящее время агенты требуют постоянного надзора и контроля для достижения оптимальных результатов.

Таким образом, февральская волна релизов и новых концепций в сфере искусственного интеллекта задаёт тон следующим этапам развития индустрии, в которой борьба ведущих игроков за технологическое превосходство и внимание пользователей становится всё более острой, а инновации переходят на новый уровень практической применимости и масштабируемости.