Вышла ACE-Step 1.5 — улучшенная модель для генерации музыки локально

Главное:

Выпущена обновлённая версия модели ACE-Step 1.5 для локальной генерации музыки с гибридной архитектурой.
Модель способна создавать композиции длительностью от 10 секунд до 10 минут, обрабатывая до 8 треков одновременно.
Представлено семейство моделей под разные объёмы видеопамяти – от 6 ГБ до более 24 ГБ, с открытым доступом на Hugging Face и GitHub.

Команда разработчиков ACE-Step совместно с StepFun анонсировала выход версии 1.5 открытой модели для генерации музыки локально. Главное новшество — переход на гибридную архитектуру, где отдельный модуль языковой модели (LM-модуль) отвечает за планирование структуры музыкальной композиции. Этот модуль формирует на основе короткого текстового запроса структуру трека, его слова и метаданные. После этого Diffusion Transformer (DiT) синтезирует аудио.

ACE-Step 1.5 предлагает широкий диапазон сценариев применения: от генерации треков по тексту (text-to-music) до создания каверов, редактирования отдельных фрагментов, генерации аккомпанемента под вокал и управления тональностью произведения. Благодаря гибридной архитектуре модель улучшила качество и вариативность создаваемой музыки.

Модель способна создавать композиции продолжительностью от 10 секунд до 10 минут, при этом одновременно обрабатывая до восьми отдельных треков. Это открывает возможности для более сложных и многослойных музыкальных аранжировок.

Кроме того, разработчики выпустили семейство моделей, рассчитанных на различное аппаратное обеспечение. Младшая версия требует меньше 6 ГБ видеопамяти и работает без LM-модуля, только на базе DiT. Более мощные варианты предусматривают использование LM-модулей с параметрами 0.6B, 1.7B и 4B, которые оптимизированы для VRAM от 6 до более 24 ГБ и обеспечивают лучшее качество генерации. Бэкенд может быть либо PyTorch, либо vllm в зависимости от модели и объёма памяти.

Все модели опубликованы в открытом доступе на платформах Hugging Face и GitHub, что позволяет исследователям и разработчикам легко интегрировать их в собственные проекты и разрабатывать новые музыкальные решения. Примеры сгенерированных треков доступны на официальной странице проекта ACE-Step. Также протестировать работу нейросети можно на платформе ACEMusic.

Обновление ACE-Step 1.5 представляет собой значительный шаг вперёд в сфере локальной генерации музыки с применением искусственного интеллекта, расширяя возможности меломанов и профессионалов музыкальной индустрии по созданию и редактированию музыкальных произведений.