Представлена Kling 2.6 — видеомодель с аудио, соперничающая с Veo 3.1 и Sora 2

Главное:

Компания Kuaishou представила Kling 2.6 — видеомодель с нативной генерацией звука.
Модель создает видеоролики с синхронизированным аудио по текстовому запросу за один проход.
Kling 2.6 конкурирует с Google Veo 3.1 и OpenAI Sora 2, генерируя видео до 10 секунд в 1080p с управлением голосом.

Китайская компания Kuaishou выпустила обновлённую версию видеогенератора Kling 2.6, которая впервые включает нативную генерацию звука. Модель способна создавать видео и аудиоряд одновременно по текстовому описанию, что позволяет автоматически синхронизировать диалоги, закадровый голос, звуковые эффекты и фоновый амбиент с визуальным рядом.

Особенностью Kling 2.6 является способ обработки запроса: модель воспринимает сцену целиком, а не покадрово, что обеспечивает сохранение логики сюжета, сценографии и движения объектов. Модель отслеживает персонажей, их одежду и реквизит, поддерживая непрерывность и гармонию в композиции.

Новая модель уже доступна через партнерские платформы Artlist, Higgsfield, ImagineArt и ElevenLabs. Стоимость создания видео составляет приблизительно $0,07 за секунду без звука и $0,14 со звуком. Таким образом, ролик продолжительностью 5 секунд с голосом выйдет примерно в $0,70.

Kling 2.6 поддерживает английский и китайский языки, предоставляя возможность управлять тоном, эмоциями и темпом голоса. По сравнению с предыдущей версией 2.5, производительность модели улучшилась на 15%, а затраты на генерацию на родной платформе снизились примерно на 30%, что равно 25 «поинтам» за 5 секунд видео.

В техническом плане Kling 2.6 сопоставима с ведущими конкурентами на рынке — Google Veo 3.1 и OpenAI Sora 2, генерируя видео с разрешением до 1080p и продолжительностью до 10 секунд, что позволяет ей уверенно претендовать на статус одного из передовых инструментов для создания аудиовизуального контента с помощью искусственного интеллекта.