Рассеяны о диффузионных моделях?

Расширение возможностей моделей генерации изображений на основе диффузии

Я был новичком в распространении три недели назад, но, учитывая шумиху, я хотел запрыгнуть в поезд распространения (что, я чувствую, мне удалось). Скорость, с которой происходят новые разработки в области генерации изображений на основе диффузии (DbIG), ошеломляет. Становится трудно понять, с чего начать путешествие. В этом посте я делюсь своим путешествием, которое может быть полезно другим, кто хочет создать прочную фундаментальную базу для понимания мира диффузионных моделей (DM), включая понимание математики.

Примечание 1: я обязательно не буду подробно рассказывать ни о какой из техник, но наметить путь от одной статьи к другой. Я считаю, что есть передозировка блогов/видео/документов, в которых рассказывается о различных методах. С другой стороны, я не нашел ни одного блога, который мог бы помочь в создании прочного фундамента в DbIG.

Примечание 2. Мне потребовалось около 3 недель упорных усилий, чтобы начать с основ и наладить работу с нуля. Если вы хотите добиться глубокого понимания, посвятите около 2 недель своего времени, особенно если вы не знакомы с математикой вариационных автоэнкодеров и хотите получить интуитивное представление о математике DM.

Давай начнем.

Шаг 1: Модель ранней диффузии

Глубокое обучение без учителя с использованием неравновесной термодинамики [2015] — это первая статья, в которой представлены идеи использования диффузионных вероятностных моделей. Хотя статью легко подготовить, если вы пропустите математику, для понимания математики требуется знакомство с вариационным выводом. Я бы порекомендовал ознакомиться с вариационными автоматическими кодировщиками (VAE), чтобы следовать математике.

Вариационные автоматические кодировщики [необязательно]: хотя это и не является обязательным требованием для понимания моделей распространения, хорошее понимание VAE помогает понять основные единицы процесса распространения и стоящие за ним математические операции.

Альтернативная интерпретация [Необязательно]: Генеративное моделирование путем оценки градиентов распределения данных [2019] — это альтернативный путь создания изображений, который ведет к тому же конечному процессу, что и DM. По словам авторов, мы вводим новую генеративную модель, в которой выборки создаются с помощью динамики Ланжевена с использованием градиентов распределения данных, оцениваемых с помощью сопоставления баллов.

Шаг 2: ДДПМ

DDPM:Вероятностные модели диффузионного шумоподавления [2020] — это то, с чего началось увлечение DM для создания изображений.

Углубление в DDPM:

Объяснение документа DDPM — Что такое диффузионные модели? [Блог], Введение в диффузионные модели для машинного обучения [Блог]
Математика — Модели распространения | Бумага Объяснение | Объяснение математики [YouTube], в котором подробно рассказывается о математике. Очень полезно для пошагового понимания математики [настоятельно рекомендуется]
Код — у меня все еще оставалась некоторая путаница, которая была устранена путем следования коду/перекодирования DM с использованием Diffusion Models | Реализация PyTorch [YouTube], Diffusion-Models-pytorch [Github], Диффузионные модели с нуля в PyTorch [YouTube]
Понимание эквивалентности генерации на основе DDPM и Score — Генеративное моделирование путем оценки градиентов распределения данных [Блог]

Углубление в модели оценки [необязательно]:

Шаг 3: Другие основы: U-net, кодирование с временным шагом, DDIM

U-Net: DDPM впервые использовала архитектуру U-Net для DM, которая, как мне кажется, так же важна, как и сам процесс распространения для создания изображений высокого качества. Хотя понимание U-Net не требуется для понимания процесса, но если вы хотите следовать более сложным работам (пошаговое кодирование, преобразование текста), очень важно знать, как работает U-Net.

U-Net: сверточные сети для сегментации биомедицинских изображений [2015] — The U-Net Paper
Полностью сверточные сети для семантической сегментации [2014] — документ FCN, послуживший источником вдохновения для U-Net.
Понимание U-Net в деталях — Понимание архитектуры U-Net и построение ее с нуля [Youtube]
Деконволюции — Руководство по арифметике свертки для глубокого обучения, Увеличение частоты дискретизации с помощью транспонированной свертки, Артефакты деконволюции и шахматной доски

Шаговое кодирование. Поскольку DDPM использует одну и ту же модель U-Net для всех этапов диффузионного шумоподавления, очень важно передать временной шаг в модель U-Net. Это основано на следующей статье Архитектура генератора на основе стилей для генеративно-состязательных сетей [2018]. Также можно узнать подробности, читая код DDPM.

DDIM: Неявные модели диффузии с шумоподавлением [октябрь 2020 г.] — Альтернативная популярная стратегия выборки из DM из литературы, основанной на оценках.

Шаг 4: Установка DM в качестве выбора по умолчанию для создания образа

Улучшенные вероятностные модели шумоподавления [февраль 2021 г.] — Усовершенствования DDPM.
Модели диффузии превзошли GAN при синтезе изображений [май 2021 г.] — Дальнейшие улучшения IDDPM. В этом документе также представлена идея руководства по классификатору для улучшения качества генерации и обеспечения способа управления выходом генерации. Я считаю, что именно это заложило основу для последующей работы над DbIG.

Шаг 5: Другие улучшения

Руководство по диффузии без классификатора [июль 2022 г.] — улучшенные результаты за счет кондиционирования модели U-Net и обучения в стиле отсева. Это альтернатива руководству классификатором, которое требует обучения альтернативного классификатора изображений.
Псевдочисленные методы для моделей диффузии на многообразиях [сентябрь 2021 г.] — Повышение скорости дискретизации.
Сверхразрешение изображения с помощью итеративного уточнения [апрель 2021 г.] — не для создания изображений, но является ключом к пониманию будущего DM, обусловленного изображением, и каскадирования для улучшения разрешения изображения.

Шаг 6: Модель распространения становится мейнстримом

Три газеты сделали диффузионные модели материалом для первой полосы.

Стабильная диффузия: Синтез изображений с высоким разрешением с использованием моделей скрытой диффузии [декабрь 2021 г.] – сделали свой код открытым, что помогло демократизировать DM. Помогли улучшить вычислительную сложность. Кондиционирование с помощью перекрестного внимания и т. д. Подробное понимание стабильной диффузии — Иллюстрированная стабильная диффузия.

Dall-E 2: Генерация иерархического текстового условного изображения с латентными данными CLIP [апрель 2022 г.] — не с открытым исходным кодом, а онлайн-демонстрация. Добавлен дополнительный шаг использования вложений изображений CLIP для условия и перед преобразованием вложений текстовых CLIP во вложения изображений.

Изображение: Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка [май 2022 г.] — Документ Google со следующей модификацией — Использование встраивания только текста (T5), пороговое руководство, каскадное модель.

Шаг 7: другие популярные диффузионные документы для создания изображений примерно до октября 2022 г. [необязательно]

SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений [август 2021 г.]
Палитра: модели распространения изображений в изображения [ноябрь 2021 г.]
GLIDE: на пути к созданию и редактированию фотореалистичных изображений с помощью текстовых диффузионных моделей [декабрь 2021 г.]
Семантический синтез изображений с помощью диффузионных моделей [июнь 2022 г.]
Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью инверсии текста [август 2022 г.] [Инверсия текста]
DreamBooth: тонкая настройка моделей преобразования текста в изображение для предметно-ориентированной генерации [август 2022 г.]
Оперативное редактирование изображений с контролем перекрестного внимания [август 2022 г.]
Imagic: редактирование реальных изображений на основе текста с помощью диффузионных моделей [октябрь 2022 г.]
MagicMix: семантическое смешение с моделями распространения [октябрь 2022 г.]

Наконец, в то время как DM занимают больше места для создания изображений, существуют модели, не основанные на DM, с такими же хорошими результатами (например, Make-A-Scene: генерация текста в изображение на основе сцены с человеческими априорами от FAIR) .

Вот и все. Удачного рассеивания.

Мне очень понравилось это волшебное путешествие по созданию образа из излучений Большого Взрыва. Если вы считаете, что есть документ/блог/видео, которые помогли вам попасть в поезд распространения, пожалуйста, поделитесь со мной.

Благодарности: я хотел бы искренне поблагодарить Сен Хе, Джерри Ву и Тао Сян за то, что помогаете мне в этом исследовании и время от времени указываете мне правильное направление.

Последнее примечание: я собрал эти знания за короткий промежуток времени, поэтому в моем понимании могут быть некоторые ошибки. Пожалуйста, дайте мне знать, если что-то, что я сказал здесь, является фактически неверным.