Как Gemini 3 Pro исследует рукописи и находит ошибки в тетрадях

Главное:

Google представила визуальные возможности модели Gemini 3 Pro, демонстрируя её на рукописных документах XVIII века и школьных тетрадях.
Технология derendering позволяет преобразовывать изображения документов в структурированный код (HTML, LaTeX, Markdown) с сохранением сложной верстки и формул.
Gemini 3 Pro превосходит средний человеческий уровень в задачах анализа данных из графиков и таблиц, а также может распознавать интерфейсы и анализировать видео.

Компания Google анонсировала инновационные визуальные возможности своей модели Gemini 3 Pro, которая демонстрирует новый уровень работы с изображениями документов и рукописного текста. В качестве яркого примера модель продемонстрировала умение распознавать и структурировать рукописный журнал американского купца XVIII века, преобразуя его в аккуратную таблицу. Кроме того, Gemini 3 Pro успешно обработала фотографию школьной тетради с решением математической задачи, обнаружив и визуально отметив ошибки прямо на изображении.

Сердцем этих возможностей является технология, названная Google «derendering» — она позволяет восстанавливать из изображений структурированное представление документов, будь то HTML, LaTeX или Markdown. Такая технология работает не только с типографским текстом, но и свободной рукописной версткой, сложными таблицами и формулами. Это открывает новые горизонты для автоматизации анализа исторических записей и учебных материалов.

Примечательно, что эффективность этой технологии подтверждена на бенчмарке CharXiv Reasoning, где Gemini 3 Pro набрала 81,4% точности — выше среднего человеческого результата в 80,5%. В демонстрационных тестах модель смогла качественно анализировать данные из официальных документов, включая отчёты Бюро переписи США, выявлять связи между графиками и текстом, а также объяснять социально-экономические явления.

Кроме обработки документов, модель демонстрирует глубокое пространственное понимание. Она точно определяет координаты объектов на изображениях, что может применяться в робототехнике и дополненной реальности. Также Gemini 3 Pro умеет детально распознавать пользовательские интерфейсы различных операционных систем, открывая перспективы для создания интеллектуальных агентов по работе с компьютерами. Наконец, улучшенная поддержка видео позволяет анализировать кадры с высокой частотой и интерпретировать происходящее в роликах на уровне взаимодействия участников событий.

В качестве дополнительной иллюстрации новых визуальных возможностей Google представила модель Nano Banana Pro, основанную на Gemini 3 Pro, которая может следить за черновыми версиями изображений и вносить необходимые корректировки, что демонстрирует потенциал в творческих приложениях.

Таким образом, Gemini 3 Pro представляет собой значительный технологический прорыв в области компьютерного зрения и анализа мультимедийных данных, объединяя распознавание, понимание и рассуждение на одном уровне, что обещает расширение возможностей искусственного интеллекта в самых разных сферах.