- Исследователи Google Cloud и Пекинского университета создали PaperBanana — агентскую систему для автоматической генерации научных диаграмм и графиков.
- Система состоит из пяти специализированных ИИ-агентов, которые последовательно ищут референсы, планируют, оформляют, визуализируют и корректируют изображения.
- PaperBanana улучшает как создание схем с нуля, так и оптимизацию существующих диаграмм, показывая высокую эстетику и удобочитаемость, но точность всё ещё уступает человеческому уровню.
Команда исследователей из Google Cloud совместно с учёными Пекинского университета представила инновационную агентскую платформу PaperBanana, предназначенную для автоматической генерации диаграмм и графиков в научных публикациях. В отличие от традиционных инструментов, данная система воспроизводит методичный подход специалистов: сначала анализирует релевантные примеры, затем формирует дизайн, а при необходимости корректирует результат.
Для начала работы PaperBanana достаточно предоставить текст научной работы и подробные подписи к предполагаемым изображениям. В структуре фреймворка задействованы пять взаимосвязанных ИИ-агентов, каждый из которых реализует отдельный этап:
- Retriever – осуществляет поиск и подбор релевантных диаграмм и схем из научных публикаций для формирования визуальных ориентиров;
- Planner – разрабатывает композицию и общий замысел будущего изображения;
- Stylist – выбирает шрифты и цветовую палитру, соответствующие стандартам научных публикаций;
- Visualizer – непосредственно создаёт графику, включая написание кода на Matplotlib для точного отображения данных;
- Critic – выполняет оценку качества итоговой диаграммы, вносит необходимые исправления либо инициирует её пересоздание.
Кроме генерации новых схем с нуля, PaperBanana способна улучшать уже имеющиеся изображения: нейросеть корректирует цветовые решения, размещение элементов и структурирует композицию для более гармоничного восприятия.
Для оценки эффективности системы разработана специализированная тестовая платформа PaperBananaBench, базирующаяся на базе из 292 методологических диаграмм из престижных научных конференций NeurIPS 2025 года. По итогам исследований PaperBanana демонстрирует высокие показатели в аспектах лаконичности, удобочитаемости и визуальной привлекательности созданных диаграмм. Вместе с тем, точность передачи информации пока остаётся выше у человеческих авторов, поскольку в некоторых случаях система допускает ошибки или «галлюцинации».
Материал с подробным описанием разработки и примерами генерируемых диаграмм опубликован на arXiv. Официальный сайт проекта содержит демонстрационные версии, а репозиторий на GitHub в ближайшее время будет дополнен исходным кодом и набором данных для свободного доступа. PaperBanana открывает новые перспективы в автоматизации научной визуализации, облегчая и стандартизируя процесс оформления результатов исследований.
