- Учёные Центра практического ИИ «Сбера» разработали легковесные нейросетевые модели для точного распознавания сложных эмоций по фото и видео.
- Модель MT-EmotiMobileFaceNet эффективно выявляет составные эмоции без дообучения на новых данных, обеспечивая высокую точность и второе место в конкурсе ABAW-7.
- Второе исследование представило многозадачные модели для одновременного распознавания выражений лица, эмоционального знака и интенсивности, улучшившие качество в 4,5 раза и заработавшие серебро в Multi-Task Learning Challenge.
Специалисты Центра практического искусственного интеллекта «Сбера» добились значительных успехов в области анализа человеческих эмоций с помощью ИИ. На конференции по компьютерному зрению ECCV 2024 они представили два ключевых исследования, основанных на разработке лёгких, но высокоэффективных нейросетевых моделей. Первая работа была посвящена распознаванию составных эмоций — тех, которые представляют собой комбинацию базовых эмоциональных состояний, например «радостно удивлённый» или «печально испуганный». В отличие от традиционных подходов, новая модель MT-EmotiMobileFaceNet позволяет точно идентифицировать такие сложные эмоции без необходимости повторного обучения на новых данных, что ранее являлось значительным ограничением.
Результаты применения алгоритма демонстрируют повышение F1-меры классификации на 4,5 процентных пункта, а команда заняла второе место в престижном конкурсе Compound Expression Recognition в рамках ABAW-7. Ключевым элементом здесь стала постобработка предсказаний через техники сглаживания, что влияет на устойчивость и точность распознавания.
Вторая работа исследует многозадачный подход к пониманию эмоционального состояния по лицу. Разработанные модели MT-EmotiDDAMFNet и MT-EmotiEffNet позволяют одновременно определять выражения, эмоциональные признаки (valence и arousal) и 12 кодов лицевых движений по классификации Пола Экмана, хотя стоит отметить, что теории Экмана имеют ограниченную поддержку среди современных учёных. Комбинация этих архитектур привела к значительному улучшению результатов конкурса ABAW-7: точность распознавания выражений увеличилась на 7 процентных пунктов, качество предсказаний эмоционального знака и интенсивности выросло в 1,25 раза, а совокупная метрика для всех трёх задач улучшилась в 4,5 раза. Эти успехи обеспечили учёным «Сбера» серебряную медаль в Multi-Task Learning Challenge.
Кроме высокой точности, большое значение имеет и практическая применимость разработок. Все модели имеют лёгкую архитектуру, что позволяет запускать их на мобильных устройствах без необходимости передачи видео и фотографий в облако, тем самым сохраняя приватность пользователей и экономя вычислительные ресурсы. Кроме того, исходный код и модели доступны в открытой библиотеке EmotiEffLib, что способствует дальнейшему развитию и интеграции таких систем.
