Обзор недели: Gemini 3.1 Pro, Sonnet 4.6 и llama.cpp новый дом

Главное:

Google представил модель искусственного интеллекта Gemini 3.1 Pro с впечатляющими бенчмарками, но в реальной работе возникают проблемы.
Anthropic выпустил обновление Sonnet 4.6 и новое решение Claude Code Security для анализа уязвимостей в коде.
Проект llama.cpp стал частью Hugging Face, что укрепит поддержку локальных и open source моделей ИИ.

На рынке искусственного интеллекта появился важный игрок — Google анонсировал модель Gemini 3.1 Pro, которая продемонстрировала значительный рост производительности на тестах, включая ARC-AGI-2, где результат увеличился с 31% до 77%. Несмотря на привлекательные показатели и соотношение цены и качества, пользователи отмечают сложности в работе с моделью: избыточные рефакторинги, непрошенные комментарии и потерю контекста. Кроме того, Gemini CLI столкнулся с багами, что негативно сказалось на опыте разработчиков.

В дополнение Google запустил музыкальный генератор Lyria 3, позволяющий создавать 30-секундные треки с вокалом на основе текстового запроса, а также инструмент Pomelli Photoshoot для создания студийных фотографий продуктов с помощью ИИ, что может заменить дорогие фотосессии для малого бизнеса в ряде стран.

Anthropic привнёс обновления в свою модель Sonnet 4.6, получившую положительные отзывы за улучшенное следование инструкциям и более естественный стиль кода. Тем не менее, новая версия характеризуется увеличенным в 4,5 раза расходом токенов по сравнению с предыдущим релизом. Также Anthropic представил Claude Code Security — инновационный сканер уязвимостей, способный анализировать код не по паттернам, а как исследователь, однако пока доступный только корпоративным клиентам.

Экосистема open source получила важное обновление: проект llama.cpp, ключевой для локальных моделей, теперь интегрирован с платформой Hugging Face. Это расширяет инфраструктуру и возможности для бесплатного файнтюнинга моделей. Параллельно на рынке появились оригинальные «бизнес-бенчмарки», измеряющие эффективность ИИ-моделей в управлении фудтраками и вендинговыми автоматами, где лидирует модель Opus 4.6.

В сфере технологий также показали новаторство: стартап Taalas представил ASIC-чип, интегрирующий модель Llama 3 8B с показателем производительности 16 000 токенов в секунду. В то же время проекты по созданию автономных агентов и сложных роботов продолжают демонстрировать прогресс.

Общий тренд в развитии ИИ-систем фокусируется не только на качестве моделей, но и на инфраструктуре управления, что подтверждается возникновением концепции harness engineering — оптимизации работы ИИ посредством улучшения сервисов и инструментов, а не только модели. Такое комплексное развитие обещает повысить эффективность и практическое применение искусственного интеллекта в различных сферах.