Gemini 3 научили смотреть на изображения как человек Обложка: Skyread

Gemini 3 научили смотреть на изображения как человек

Новости
Главное:

  • Google представил Agentic Vision — новую функциональность модели Gemini 3 Flash, позволяющую машинному интеллекту последовательно изучать изображения, как это делает человек.
  • Модель использует цикл «думай — действуй — наблюдай», формируя план анализа и генерируя Python-код для манипуляций с изображениями, что повышает точность распознавания и анализа.
  • Внедрение Agentic Vision дает прирост эффективности на 5–10% на визуальных тестах и уже доступно через Gemini API в Google AI Studio и Vertex AI.

Компания Google анонсировала новую функцию в своей модели искусственного интеллекта Gemini 3 Flash — Agentic Vision. Эта технология позволяет системе глубже и последовательно анализировать изображения, имитируя человеческий процесс рассмотрения деталей, в отличие от привычного одномоментного восприятия.

Ранее ИИ мог пропускать мелкие, но важные элементы на изображении, например, серийные номера или далекие дорожные знаки, что ухудшало точность анализа. Новая модель способна самостоятельно определить, какие участки стоит изучить внимательнее, приближать фрагменты, поворачивать, рисовать пометки и делать пометки на картинках — всё это реализуется посредством генерации и выполнения Python-кода, направленного на нужные операции с изображением. Такой подход превращает само изображение в интерактивную рабочую среду, где анализ ведется поэтапно.

В качестве примеров Google приводит применение Agentic Vision на практике. В платформе PlanCheckSolver, занимающейся проверкой строительных чертежей, точность анализа улучшилась на 5%, благодаря возможности итеративного приближения к выбранным фрагментам плана. В приложении Gemini при подсчёте пальцев на фото модель выделяет каждый палец с помощью ограничивающих рамок, что минимизирует ошибки. Кроме того, при работе с табличными данными система умеет автоматически парсить цифры и строить инфографику в Matplotlib, а не просто пересказывать их текстом.

По информации Google, активация возможности выполнения кода (code execution) в рамках анализа обеспечивает стабильный прирост качества в диапазоне 5–10% на большинстве визуальных бенчмарков. Новая функция доступна разработчикам через Gemini API в сервисах Google AI Studio и Vertex AI, а также интегрируется в приложение Gemini в специальном режиме Thinking.

Данное развитие повышает потенциал ИИ в работе с изображениями, делая его инструменты более интеллектуальными и адаптивными к задачам, требующим детального и последовательного анализа.

Tagged