- Компания Kuaishou представила Kling 2.6 — видеомодель с нативной генерацией звука.
- Модель создает видеоролики с синхронизированным аудио по текстовому запросу за один проход.
- Kling 2.6 конкурирует с Google Veo 3.1 и OpenAI Sora 2, генерируя видео до 10 секунд в 1080p с управлением голосом.
Китайская компания Kuaishou выпустила обновлённую версию видеогенератора Kling 2.6, которая впервые включает нативную генерацию звука. Модель способна создавать видео и аудиоряд одновременно по текстовому описанию, что позволяет автоматически синхронизировать диалоги, закадровый голос, звуковые эффекты и фоновый амбиент с визуальным рядом.
Особенностью Kling 2.6 является способ обработки запроса: модель воспринимает сцену целиком, а не покадрово, что обеспечивает сохранение логики сюжета, сценографии и движения объектов. Модель отслеживает персонажей, их одежду и реквизит, поддерживая непрерывность и гармонию в композиции.
Новая модель уже доступна через партнерские платформы Artlist, Higgsfield, ImagineArt и ElevenLabs. Стоимость создания видео составляет приблизительно $0,07 за секунду без звука и $0,14 со звуком. Таким образом, ролик продолжительностью 5 секунд с голосом выйдет примерно в $0,70.
Kling 2.6 поддерживает английский и китайский языки, предоставляя возможность управлять тоном, эмоциями и темпом голоса. По сравнению с предыдущей версией 2.5, производительность модели улучшилась на 15%, а затраты на генерацию на родной платформе снизились примерно на 30%, что равно 25 «поинтам» за 5 секунд видео.
В техническом плане Kling 2.6 сопоставима с ведущими конкурентами на рынке — Google Veo 3.1 и OpenAI Sora 2, генерируя видео с разрешением до 1080p и продолжительностью до 10 секунд, что позволяет ей уверенно претендовать на статус одного из передовых инструментов для создания аудиовизуального контента с помощью искусственного интеллекта.
