Gemini 3 Deep Think превзошла человека в тесте на искусственный интеллект

Главное:

Google DeepMind обновила модель Gemini 3 Deep Think, которая достигла 84,6% по бенчмарку ARC-AGI-2, значительно превзойдя средний уровень человека.
Модель продемонстрировала выдающиеся результаты на Международных олимпиадах по физике и химии и в соревновательной платформе Codeforces, а также успешно прошла академический тест Humanity’s Last Exam.
Deep Think уже используется в научных и инженерных исследованиях, включая проверку теоретических физический статей и оптимизацию синтеза полупроводников.

Компания Google DeepMind выпустила крупное обновление своей модели искусственного интеллекта Gemini 3 Deep Think, предназначенной для решения сложных научных и инженерных задач. Режим глубоких рассуждений показал впечатляющие результаты — 84,6% на бенчмарке ARC-AGI-2. Этот тест оценивает способность систем обучаться решать абстрактные задачи, которые не встречались в обучающей выборке. Для сравнения, предыдущая версия Deep Think в декабре набирала 45,1%, а средний человек — около 60%. Среди конкурентов отмечены Claude Opus 4.6 с результатом 68,8% и GPT-5.2 Thinking с 52,9%.

Кроме абстрактного мышления, обновлённая модель добилась уровня золотой медали на письменных этапах Международных олимпиад по физике и химии 2025 года. В сфере программирования она показала рейтинг Elo 3455 на Codeforces, существенно опередив Gemini 3 Pro (2512) и Claude Opus 4.6 (2352). Интересен также результат модели на академическом тесте Humanity’s Last Exam — Deep Think справилась с 48,4% вопросов без использования вспомогательных инструментов, превзойдя Claude Opus 4.6 (40,0%) и GPT-5.2 (34,5%).

Google также поделилась примерами реального применения модели. Математик Лиза Карбоне из Университета Ратгерс использовала Deep Think для рецензирования статьи в области теоретической физики, где модель выявила логическую ошибку, пропущенную человеческими экспертами. В Университете Дьюка лаборатория Хаочжэ Ванга применяет Deep Think через API для оптимизации процессов синтеза двумерных полупроводниковых материалов — начиная от генерации гипотез до определения параметров выращивания кристаллов.

Новое обновление доступно подписчикам Google AI Ultra по цене 250 долларов в месяц через приложение Gemini. Впервые режим глубоких рассуждений стал доступен также через Gemini API для исследователей и инженеров в рамках программы раннего доступа.

Следует подчеркнуть, что разработчики ARC Prize отмечают: хотя высокий результат Deep Think на их бенчмарке демонстрирует значительный прогресс в области искусственного общего интеллекта (AGI), это лишь один из шагов на пути к созданию полноценных систем AGI. В настоящее время готовится следующий бенчмарк ARC-AGI-3 с более сложными задачами, который поможет объективнее оценивать развитие технологий.