См.: https://arxiv.org/pdf/2209.14792.pdf

Make-A-Video — это модель, которая пытается извлечь выгоду из модели преобразования текста в изображение для создания видео. Эта модель использует большое количество данных изображений в сочетании с текстом, доступным в Интернете для обучения. Затем модель использует неконтролируемую модель видеоданных для создания движения.

МОДЕЛЬ:

Make-A-Video состоит из трех частей:

  • Модель T2I, обученная на парах текст-изображение
  • Слои пространственно-временной свертки и внимания, изучение динамики временного мира из коллекции видео.
  • Пространственно-временные сети, состоящие как из пространственно-временных слоев, так и из сетей интерполяции для генерации высокой частоты кадров.

Модель преобразования текста в изображение

Режим T2I обучается на парах текст-изображение и является основой модели. Следующие сети используются для создания изображений с высоким разрешением из текста.

  • Предыдущая сеть создает вложения изображений для вложений входного текста.
  • Сеть декодера, которая создает RGB-изображение 64 × 64 на основе внедренных изображений.
  • Две сети сверхвысокого разрешения увеличивают разрешение генерируемого изображения до 256 × 256 и 768 × 768 пикселей.

Пространственно-временные слои

Для создания видео сверточные слои и слои внимания модифицируются и расширяются во временном измерении. Эти временные модификации выполняются в пространственно-временном декодере, сети интерполяции кадров и сетях сверхвысокого разрешения.

Псевдо-3D-сверточные слои:одномерная свертка накладывается на каждый двумерный сверточный слой. Это гарантирует, что информация распределяется между пространственной и временной осями без большой вычислительной нагрузки слоев 3D Conv. Он создает раздел между предварительно обученными слоями 2D Conv и недавно инициализированными слоями 1D Conv, что позволяет нам обучать временные свертки с нуля. Одномерный сверточный слой изначально представляет собой функцию идентичности. Это обеспечивает плавный переход от обучающих только пространственных слоев к пространственно-временным слоям.

Псевдо-3D-уровни внимания:Временной уровень внимания накладывается после каждого пространственного уровня внимания, что делает его полным пространственно-временным уровнем внимания. Подобно одномерной свертке, временной уровень внимания также изначально является функцией идентичности.

Сеть интерполяции кадров

Сеть интерполяции и экстраполяции кадров обучается увеличивать количество кадров в видео с помощью интерполяции или экстраполяции. Пространственно-временной декодер точно настроен для интерполяции маскированных кадров и заполнения нулями, чтобы обеспечить повышение частоты дискретизации видео. Он точно настроен с переменным пропуском кадров и кондиционированием кадров в секунду, чтобы обеспечить несколько временных частот повышения дискретизации.

ОБУЧЕНИЕ:

Различные компоненты Make-A-Video обучаются независимо. Единственный компонент, который получает текст в качестве входных данных, является априорным. Он обучается на парных данных текст-изображение и не настраивается на видео. Декодер, предварительный и два компонента сверхвысокого разрешения сначала обучаются только на изображениях. После обучения на изображениях инициализируются и настраиваются новые временные слои по немаркированным видеоданным. Из исходного видео выбираются 16 кадров со случайным числом кадров в секунду в диапазоне от 1 до 30.

ЗАКЛЮЧЕНИЕ:

Модель выполняет впечатляющую задачу по созданию видео, что является сложной задачей, учитывая, что каждое изображение должно быть в последовательности, чтобы быть в «потоке», подобно видео. Неконтролируемая интерполяция кадров позволяет генерировать видео без меток, уменьшая зависимость от данных пары текст-видео.

Несмотря на то, что модель ограничена короткими видеороликами и общими последовательностями. Модель совершает огромный подвиг, просто обучаясь на изображениях и интерполируя на основе видеоданных, что обеспечивает многообещающее будущее с лучшими моделями в ближайшее время.

Вам не интересно, что вас ждет впереди?