VK усовершенствовала систему распознавания речи на 20%

Главное:

Компания VK повысила точность технологии автоматического распознавания речи (ASR) на 20%.
Новая версия системы обучена на большом наборе аудиодорожек из видеоконтента «VK Видео» и превосходит зарубежные аналоги по качеству распознавания русского языка.
Технология уже внедрена в «VK Видео» и «VK Клипах», а в будущем появится в других продуктах VK с расширением функционала.

Компания VK объявила о значительном улучшении своей технологии автоматического распознавания речи (ASR), применяемой в различных продуктах группы. Согласно официальному пресс-релизу, специалисты AI отдела VK доработали систему на основе моделей машинного обучения, что позволило повысить точность распознавания речи на 20% по сравнению с предыдущей версией.

Технология ASR преобразует звук в текст путём цифровой обработки аудиосигналов, устраняя шумы и анализируя особенности произношения. Основой улучшенной модели стали нейросетевые алгоритмы и большие языковые модели (LLM), которые не только распознают отдельные слова, но и учитывают контекст, что повышает естественность и точность расшифровок.

Для обучения новой версии системы использовался расширенный набор данных, включающий аудиодорожки из публичных видеороликов платформы «VK Видео». Благодаря этому модель стала лучше адаптироваться к различным темпам и манерам речи. По внутренним тестам VK, разработка превосходит зарубежные аналоги в области распознавания русского языка на звуковых дорожках видео.

На практике технология ASR уже применяется для создания субтитров в сервисах «VK Видео» и «VK Клипах», а также в образовательной платформе «Учи.ру». Система распознаёт голосовые сообщения в мессенджере «ВКонтакте» и используется для автоматической расшифровки встреч и их последующей суммаризации внутри компании. Кроме того, эта технология помогает совершенствовать мультимодальные модели рекомендательной системы Discovery.

В настоящее время обновлённая версия ASR активно функционирует в «VK Видео» и «VK Клипах», а также интегрирована во внутренние сервисы VK. Команда разработчиков планирует постепенно расширить использование технологии на другие сервисы группы. В числе планов — улучшение точности распознавания голосовых сообщений, расширение языковой поддержки и добавление функции диаризации для разделения речи по спикерам.

Таким образом, VK продолжает укреплять позиции в сфере искусственного интеллекта и обработки речи, повышая качество пользовательских сервисов и расширяя функционал своих продуктов.