Alibaba представила ИИ Wan 2.2 Animate для анимации фото и замены лиц Обложка: aiSkyread

Alibaba представила ИИ Wan 2.2 Animate для анимации фото и замены лиц

Новости
Главное:

  • Alibaba представила видео-ИИ Wan 2.2 Animate, который позволяет создавать анимацию персонажа по одному фото и заменять лицо в видео.
  • Модель базируется на архитектуре MoE с 27 миллиардами параметров, но для вычислений используется 14 миллиардов, что оптимизирует производительность.
  • Wan 2.2 Animate доступна под лицензией Apache-2.0 на Hugging Face и GitHub, поддерживает локальный запуск при наличии видеопамяти от 24 ГБ.

Компания Alibaba объявила о выпуске новой версии видео-ИИ Wan 2.2 Animate – инструмента, позволяющего создавать анимацию персонажа на основе одного изображения и осуществлять замену лиц в готовых видео. Этот релиз является частью семейства моделей Wan 2.2, включающего также технологии преобразования текста в видео и речи в видео.

Архитектура Wan 2.2 Animate построена на принципе смеси экспертов (MoE), в которой работают два специализированных компонента: один обрабатывает кадры с высоким шумом, другой – с низким. В сумме модель содержит 27 миллиардов параметров, однако на каждом этапе активно используется лишь 14 миллиардов, что позволяет значительно снижать вычислительные затраты.

В новом релизе достигнут значительный прогресс в реалистичности визуализации и в обработке сложных движений благодаря расширенному набору обучающих данных, который вырос более чем на 65% по количеству изображений и на 83% по объему видео по сравнению с предыдущей версией. Таким образом, Wan 2.2 Animate демонстрирует более плавные и кинематографические анимации.

Для работы с инструментом пользователь загружает референсное фото персонажа и драйв-видео с необходимыми движениями. Модель извлекает из ролика позы и маски, которые затем применяются в двух рабочих режимах. В режиме Animation создается новое видео, где оригинальный персонаж из фотографии оживляется под движения и мимику из драйв-видео. В режиме Replacement оригинальное видео сохраняет фон, сцену, ракурсы и тайминг, но заменяет человека на героя с референсного фото – это может касаться только лица или полного тела с сохранением синхронизации движений и губ.

Wan 2.2 Animate открыта для бесплатного использования под лицензией Apache-2.0 и доступна на платформах Hugging Face и GitHub. Полная версия модели требует для локального запуска примерно 80 ГБ видеопамяти, однако возможен запуск на видеокартах с 24 ГБ (например, Nvidia RTX 4090) при использовании методов оптимизации, таких как оффлоад данных или вычисления с пониженной точностью FP8. Для более слабого железа предлагается упрощённая версия TI2V-5B, которая работает при 24 fps и разрешении 720p.

Tagged