Расширение возможностей моделей генерации изображений на основе диффузии

Я был новичком в распространении три недели назад, но, учитывая шумиху, я хотел запрыгнуть в поезд распространения (что, я чувствую, мне удалось). Скорость, с которой происходят новые разработки в области генерации изображений на основе диффузии (DbIG), ошеломляет. Становится трудно понять, с чего начать путешествие. В этом посте я делюсь своим путешествием, которое может быть полезно другим, кто хочет создать прочную фундаментальную базу для понимания мира диффузионных моделей (DM), включая понимание математики.

Примечание 1: я обязательно не буду подробно рассказывать ни о какой из техник, но наметить путь от одной статьи к другой. Я считаю, что есть передозировка блогов/видео/документов, в которых рассказывается о различных методах. С другой стороны, я не нашел ни одного блога, который мог бы помочь в создании прочного фундамента в DbIG.

Примечание 2. Мне потребовалось около 3 недель упорных усилий, чтобы начать с основ и наладить работу с нуля. Если вы хотите добиться глубокого понимания, посвятите около 2 недель своего времени, особенно если вы не знакомы с математикой вариационных автоэнкодеров и хотите получить интуитивное представление о математике DM.

Давай начнем.

Шаг 1: Модель ранней диффузии

Глубокое обучение без учителя с использованием неравновесной термодинамики [2015] — это первая статья, в которой представлены идеи использования диффузионных вероятностных моделей. Хотя статью легко подготовить, если вы пропустите математику, для понимания математики требуется знакомство с вариационным выводом. Я бы порекомендовал ознакомиться с вариационными автоматическими кодировщиками (VAE), чтобы следовать математике.

Вариационные автоматические кодировщики [необязательно]: хотя это и не является обязательным требованием для понимания моделей распространения, хорошее понимание VAE помогает понять основные единицы процесса распространения и стоящие за ним математические операции.

Альтернативная интерпретация [Необязательно]: Генеративное моделирование путем оценки градиентов распределения данных [2019] — это альтернативный путь создания изображений, который ведет к тому же конечному процессу, что и DM. По словам авторов, мы вводим новую генеративную модель, в которой выборки создаются с помощью динамики Ланжевена с использованием градиентов распределения данных, оцениваемых с помощью сопоставления баллов.

Шаг 2: ДДПМ

DDPM:Вероятностные модели диффузионного шумоподавления [2020] — это то, с чего началось увлечение DM для создания изображений.

Углубление в DDPM:

Углубление в модели оценки [необязательно]:

Шаг 3: Другие основы: U-net, кодирование с временным шагом, DDIM

U-Net: DDPM впервые использовала архитектуру U-Net для DM, которая, как мне кажется, так же важна, как и сам процесс распространения для создания изображений высокого качества. Хотя понимание U-Net не требуется для понимания процесса, но если вы хотите следовать более сложным работам (пошаговое кодирование, преобразование текста), очень важно знать, как работает U-Net.

Шаговое кодирование. Поскольку DDPM использует одну и ту же модель U-Net для всех этапов диффузионного шумоподавления, очень важно передать временной шаг в модель U-Net. Это основано на следующей статье Архитектура генератора на основе стилей для генеративно-состязательных сетей [2018]. Также можно узнать подробности, читая код DDPM.

DDIM: Неявные модели диффузии с шумоподавлением [октябрь 2020 г.] — Альтернативная популярная стратегия выборки из DM из литературы, основанной на оценках.

Шаг 4: Установка DM в качестве выбора по умолчанию для создания образа

Шаг 5: Другие улучшения

Шаг 6: Модель распространения становится мейнстримом

Три газеты сделали диффузионные модели материалом для первой полосы.

Стабильная диффузия: Синтез изображений с высоким разрешением с использованием моделей скрытой диффузии [декабрь 2021 г.] – сделали свой код открытым, что помогло демократизировать DM. Помогли улучшить вычислительную сложность. Кондиционирование с помощью перекрестного внимания и т. д. Подробное понимание стабильной диффузии — Иллюстрированная стабильная диффузия.

Dall-E 2: Генерация иерархического текстового условного изображения с латентными данными CLIP [апрель 2022 г.] — не с открытым исходным кодом, а онлайн-демонстрация. Добавлен дополнительный шаг использования вложений изображений CLIP для условия и перед преобразованием вложений текстовых CLIP во вложения изображений.

Изображение: Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка [май 2022 г.] — Документ Google со следующей модификацией — Использование встраивания только текста (T5), пороговое руководство, каскадное модель.

Шаг 7: другие популярные диффузионные документы для создания изображений примерно до октября 2022 г. [необязательно]

Наконец, в то время как DM занимают больше места для создания изображений, существуют модели, не основанные на DM, с такими же хорошими результатами (например, Make-A-Scene: генерация текста в изображение на основе сцены с человеческими априорами от FAIR) .

Вот и все. Удачного рассеивания.

Мне очень понравилось это волшебное путешествие по созданию образа из излучений Большого Взрыва. Если вы считаете, что есть документ/блог/видео, которые помогли вам попасть в поезд распространения, пожалуйста, поделитесь со мной.

Благодарности: я хотел бы искренне поблагодарить Сен Хе, Джерри Ву и Тао Сян за то, что помогаете мне в этом исследовании и время от времени указываете мне правильное направление.

Последнее примечание: я собрал эти знания за короткий промежуток времени, поэтому в моем понимании могут быть некоторые ошибки. Пожалуйста, дайте мне знать, если что-то, что я сказал здесь, является фактически неверным.