Huawei представила WindowSeat — ИИ для удаления отражений с фото Обложка: Skyread

Huawei представила WindowSeat — ИИ для удаления отражений с фото

Новости
Главное:

  • Исследователи Huawei и ETH Zurich разработали модель машинного обучения WindowSeat для удаления отражений на фотографиях.
  • Для обучения модели создали уникальный синтетический датасет из 25 тыс. фотореалистичных 3D-сцен с отражениями, сгенерированных в Blender.
  • WindowSeat позволяет эффективно обрабатывать высококачественные изображения, используя диффузионный трансформер Qwen-Image-Edit-250 и адаптацию LoRA, при этом модель опубликована с открытым исходным кодом.

Команда исследователей из лаборатории Huawei Bayer Lab совместно со Швейцарской высшей технической школой Цюриха (ETH Zurich) представила инновационное решение для проблемы удаления отражений на фотографиях — модель WindowSeat. Данная проблема особенно актуальна при съемке через окна в транспорте, а также при фотографировании витрин и городских пейзажей, где нежелательные отражения часто ухудшают качество снимков. Традиционные методы обработки требуют много времени и не всегда дают естественный результат.

Основной сложностью для создания эффективной модели является отсутствие качественных и масштабных датасетов, которые бы содержали пары снимков с отражениями и без них. Переход к синтетическим данным был обусловлен тем, что накладывание отражений на готовые фотографии выглядит неестественно и снижается точность модели. Исследователи решили самостоятельно сгенерировать обучающий набор из 25 тысяч изображений, используя 3D-программу Blender и физически корректный шейдер Principled BSDF, что обеспечило реалистичную передачу различных оптических эффектов.

Для обучения модели был выбран диффузионный трансформер Qwen-Image-Edit-250 с 12,5 миллиардами параметров, адаптированный с помощью LoRA-адаптера — это позволило значительно снизить количество обновляемых параметров до 3,6%, сохраняя при этом высокую производительность. Дополнительно 95,7% параметров были сжаты до 4 бит, что делает модель совместимой с видеокартами среднего уровня. Такой подход обеспечивает быструю обработку фотографий за один проход без ущерба качеству.

Кроме того, разработчики позаботились о работе с изображениями высокого разрешения — алгоритм разбивает фотографию на плитки фиксированного размера, последовательно удаляет отражения и собирает итоговый безупречный кадр. Если базовых настроек недостаточно, пользователь может увеличить количество плиток для более тщательной обработки.

Тестирование WindowSeat показало превосходство модели над аналогами в сохранении деталей снимков и эффективности удаления отражений. Модель требует видеокарту с не менее чем 24 ГБ памяти, при этом в пиковых нагрузках потребляется около 21 ГБ.

Исследователи открыто распространяют одну из версий WindowSeat по лицензии Apache 2.0 — все связанные материалы доступны в репозиториях на GitHub и Hugging Face. Подробности реализации и научное описание представлены в публикации на arXiv, что открывает возможности для интеграции и дальнейших разработок в области улучшения фотографий.

Tagged