Nvidia опубликовала исходный код технологии Audio2Face

Главное:

Nvidia открыла исходный код технологии Audio2Face — нейросети для создания анимации лиц на основе аудиосигналов.
Исходный код включает не только модель, но и фреймворк для обучения, что позволяет адаптировать технологию под разные задачи.
Технология уже находит применение в игровых проектах, медиа, индустрии развлечений и сервисах обслуживания клиентов.

Компания Nvidia шагнула навстречу сообществу разработчиков, объявив об открытии исходного кода технологии Audio2Face. Эта инновационная нейросетевая модель способна превращать звуковой вход — аудио с речью — в реалистичную анимацию лиц, синхронизируя движения губ и передавая эмоциональную окраску. Таким образом, Audio2Face обеспечивает естественное и выразительное оживление 3D-персонажей для видеоигр и других интерактивных приложений.

Audio2Face анализирует различные акустические характеристики, включая фонемы и интонации, и на их основе формирует поток анимационных данных. Эти данные можно использовать как в режиме офлайн, для заранее подготовленного контента, так и в режиме реального времени, что позволяет создавать живые аватары, реагирующие на речь в момент трансляции. Nvidia также предоставила исходный код фреймворка для обучения модели, дающего возможность исследователям и разработчикам адаптировать и совершенствовать технологию под собственные нужды.

Поддержка открытого исходного кода служит стимулом для активного развития Audio2Face. В Nvidia подчёркивают, что доступ к полному набору инструментов позволяет разработчикам, студентам и научным сотрудникам погружаться в работу с передовым алгоритмом, вносить улучшения, создавать новые функции и оптимизировать систему под разные сценарии использования. Компания также пригласила всех желающих присоединиться к сообществу Audio2Face в Discord для обмена опытом и совместной работы.

Технология уже прочно вошла в индустрию развлечений и игровую сферу. Среди компаний, интегрировавших Audio2Face в свои продукты, значатся такие имена, как Convai, Codemasters, GSC Games World, Inworld AI, NetEase, Reallusion и ряд других. К примеру, платформа Reallusion использует Audio2Face для создания анимированных многоязычных лицевых выражений на базе аудиоданных. Это подчеркивает универсальность и востребованность технологии в различных областях, включая медиа и клиентские сервисы.

Реализация Audio2Face стала частью более масштабной платформы Nvidia ACE, которая предназначена для работы на аппаратном обеспечении компании. Несмотря на потенциальную совместимость с видеокартами других производителей, Nvidia, по всей видимости, будет оптимизировать софт прежде всего под собственные решения, что стандартно для её экосистемы.

В целом открытие исходного кода Audio2Face представляет собой важный шаг к демократизации инструментов искусственного интеллекта в области анимации и 3D-графики, способствуя ускоренному развитию интерактивных мультимедийных приложений и расширению возможностей разработчиков по всему миру.