Linum v2 — видео-ИИ, созданный двумя братьями за 2 года Обложка: Skyread

Linum v2 — видео-ИИ, созданный двумя братьями за 2 года

Новости
Главное:

  • Стартап Linum выпустил открытые модели text-to-video с весами под лицензией Apache 2.0.
  • Модели генерируют короткие видео до 720p, запускаются локально на мощной видеокарте и содержат 2 млрд параметров.
  • Проект создан братьями Чопра из Сан-Франциско, которые за два года разработали уникальный пайплайн с нуля.

Компания Linum, основанная братьями Сахилом и Ману Чопра, представила вторую версию своей text-to-video модели с открытым исходным кодом и весами, доступными под лицензией Apache 2.0. Проект направлен на генерацию коротких видеороликов продолжительностью 2-5 секунд в разрешении до 720p. Модель содержит около 2 миллиардов параметров, что позволяет запускать её локально на видеокартах с объемом памяти от 20 ГБ и выше.

Начало работы над Linum датируется осенью 2022 года, вскоре после появления Stable Diffusion, который вдохновил братьев на создание собственного решения. Первая версия модели была выпущена в январе 2024 года и представляла собой GIF-бот с разрешением 180p, основанный на Stable Diffusion XL. Однако уже тогда команда осознала ограничения платформы: существующие методы не учитывали временную взаимосвязь кадров и требовали оригинальных обучающих данных для создания плавного видео.

Для второй версии Linum была разработана новая архитектура с нуля. В неё вошли T5 для кодирования текстовых запросов, VAE Wan 2.1 для сжатия видео и собственный бэкенд DiT, обученный с помощью метода flow matching. Значительную часть работы заняла разработка пайплайна фильтрации обучающих данных, включая ручную разметку эстетических характеристик и дообучение модели для автоматического отбора видеоматериалов из огромной базы.

Новая модель наиболее эффективна при генерации мультяшных стилей, сцен с едой, природой и простыми движениями персонажей. Затруднения пока возникают с обработкой сложной физики, динамическими сценами и созданием текста в кадре. Производительность такова, что создание 5-секундного видео в 720p занимает около 15 минут на современном графическом процессоре NVIDIA H100.

Главная цель проекта Linum состоит в снижении барьеров для создания анимации, поскольку производство независимого мультфильма может обходиться в миллионы долларов. Разработчики планируют в будущем улучшить физическое моделирование, ускорить генерацию при помощи дистилляции, добавить возможность обработки аудио и масштабировать модель для более широких задач.

Tagged