Расширение возможностей моделей генерации изображений на основе диффузии
Я был новичком в распространении три недели назад, но, учитывая шумиху, я хотел запрыгнуть в поезд распространения (что, я чувствую, мне удалось). Скорость, с которой происходят новые разработки в области генерации изображений на основе диффузии (DbIG), ошеломляет. Становится трудно понять, с чего начать путешествие. В этом посте я делюсь своим путешествием, которое может быть полезно другим, кто хочет создать прочную фундаментальную базу для понимания мира диффузионных моделей (DM), включая понимание математики.
Примечание 1: я обязательно не буду подробно рассказывать ни о какой из техник, но наметить путь от одной статьи к другой. Я считаю, что есть передозировка блогов/видео/документов, в которых рассказывается о различных методах. С другой стороны, я не нашел ни одного блога, который мог бы помочь в создании прочного фундамента в DbIG.
Примечание 2. Мне потребовалось около 3 недель упорных усилий, чтобы начать с основ и наладить работу с нуля. Если вы хотите добиться глубокого понимания, посвятите около 2 недель своего времени, особенно если вы не знакомы с математикой вариационных автоэнкодеров и хотите получить интуитивное представление о математике DM.
Давай начнем.
Шаг 1: Модель ранней диффузии
Глубокое обучение без учителя с использованием неравновесной термодинамики [2015] — это первая статья, в которой представлены идеи использования диффузионных вероятностных моделей. Хотя статью легко подготовить, если вы пропустите математику, для понимания математики требуется знакомство с вариационным выводом. Я бы порекомендовал ознакомиться с вариационными автоматическими кодировщиками (VAE), чтобы следовать математике.
Вариационные автоматические кодировщики [необязательно]: хотя это и не является обязательным требованием для понимания моделей распространения, хорошее понимание VAE помогает понять основные единицы процесса распространения и стоящие за ним математические операции.
- Учебные пособия: Введение в вариационные автоэнкодеры, Учебное пособие по вариационным автоэнкодерам
- Документы: Вариационное байесовское автокодирование
- Код: Вариационный автоэнкодер с Pytorch, СКРЫТЫЕ ПРОСТРАНСТВА (часть 2): простое руководство по вариационным автоэнкодерам
Альтернативная интерпретация [Необязательно]: Генеративное моделирование путем оценки градиентов распределения данных [2019] — это альтернативный путь создания изображений, который ведет к тому же конечному процессу, что и DM. По словам авторов, мы вводим новую генеративную модель, в которой выборки создаются с помощью динамики Ланжевена с использованием градиентов распределения данных, оцениваемых с помощью сопоставления баллов.
Шаг 2: ДДПМ
DDPM:Вероятностные модели диффузионного шумоподавления [2020] — это то, с чего началось увлечение DM для создания изображений.
Углубление в DDPM:
- Объяснение документа DDPM — Что такое диффузионные модели? [Блог], Введение в диффузионные модели для машинного обучения [Блог]
- Математика — Модели распространения | Бумага Объяснение | Объяснение математики [YouTube], в котором подробно рассказывается о математике. Очень полезно для пошагового понимания математики [настоятельно рекомендуется]
- Код — у меня все еще оставалась некоторая путаница, которая была устранена путем следования коду/перекодирования DM с использованием Diffusion Models | Реализация PyTorch [YouTube], Diffusion-Models-pytorch [Github], Диффузионные модели с нуля в PyTorch [YouTube]
- Понимание эквивалентности генерации на основе DDPM и Score — Генеративное моделирование путем оценки градиентов распределения данных [Блог]
Углубление в модели оценки [необязательно]:
- Улучшенные методы обучения генеративных моделей на основе оценок [2020]
- Генеративное моделирование на основе оценок с помощью стохастических дифференциальных уравнений [2020]
Шаг 3: Другие основы: U-net, кодирование с временным шагом, DDIM
U-Net: DDPM впервые использовала архитектуру U-Net для DM, которая, как мне кажется, так же важна, как и сам процесс распространения для создания изображений высокого качества. Хотя понимание U-Net не требуется для понимания процесса, но если вы хотите следовать более сложным работам (пошаговое кодирование, преобразование текста), очень важно знать, как работает U-Net.
- U-Net: сверточные сети для сегментации биомедицинских изображений [2015] — The U-Net Paper
- Полностью сверточные сети для семантической сегментации [2014] — документ FCN, послуживший источником вдохновения для U-Net.
- Понимание U-Net в деталях — Понимание архитектуры U-Net и построение ее с нуля [Youtube]
- Деконволюции — Руководство по арифметике свертки для глубокого обучения, Увеличение частоты дискретизации с помощью транспонированной свертки, Артефакты деконволюции и шахматной доски
Шаговое кодирование. Поскольку DDPM использует одну и ту же модель U-Net для всех этапов диффузионного шумоподавления, очень важно передать временной шаг в модель U-Net. Это основано на следующей статье Архитектура генератора на основе стилей для генеративно-состязательных сетей [2018]. Также можно узнать подробности, читая код DDPM.
DDIM: Неявные модели диффузии с шумоподавлением [октябрь 2020 г.] — Альтернативная популярная стратегия выборки из DM из литературы, основанной на оценках.
Шаг 4: Установка DM в качестве выбора по умолчанию для создания образа
- Улучшенные вероятностные модели шумоподавления [февраль 2021 г.] — Усовершенствования DDPM.
- Модели диффузии превзошли GAN при синтезе изображений [май 2021 г.] — Дальнейшие улучшения IDDPM. В этом документе также представлена идея руководства по классификатору для улучшения качества генерации и обеспечения способа управления выходом генерации. Я считаю, что именно это заложило основу для последующей работы над DbIG.
Шаг 5: Другие улучшения
- Руководство по диффузии без классификатора [июль 2022 г.] — улучшенные результаты за счет кондиционирования модели U-Net и обучения в стиле отсева. Это альтернатива руководству классификатором, которое требует обучения альтернативного классификатора изображений.
- Псевдочисленные методы для моделей диффузии на многообразиях [сентябрь 2021 г.] — Повышение скорости дискретизации.
- Сверхразрешение изображения с помощью итеративного уточнения [апрель 2021 г.] — не для создания изображений, но является ключом к пониманию будущего DM, обусловленного изображением, и каскадирования для улучшения разрешения изображения.
Шаг 6: Модель распространения становится мейнстримом
Три газеты сделали диффузионные модели материалом для первой полосы.
Стабильная диффузия: Синтез изображений с высоким разрешением с использованием моделей скрытой диффузии [декабрь 2021 г.] – сделали свой код открытым, что помогло демократизировать DM. Помогли улучшить вычислительную сложность. Кондиционирование с помощью перекрестного внимания и т. д. Подробное понимание стабильной диффузии — Иллюстрированная стабильная диффузия.
Dall-E 2: Генерация иерархического текстового условного изображения с латентными данными CLIP [апрель 2022 г.] — не с открытым исходным кодом, а онлайн-демонстрация. Добавлен дополнительный шаг использования вложений изображений CLIP для условия и перед преобразованием вложений текстовых CLIP во вложения изображений.
Изображение: Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка [май 2022 г.] — Документ Google со следующей модификацией — Использование встраивания только текста (T5), пороговое руководство, каскадное модель.
Шаг 7: другие популярные диффузионные документы для создания изображений примерно до октября 2022 г. [необязательно]
- SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений [август 2021 г.]
- Палитра: модели распространения изображений в изображения [ноябрь 2021 г.]
- GLIDE: на пути к созданию и редактированию фотореалистичных изображений с помощью текстовых диффузионных моделей [декабрь 2021 г.]
- Семантический синтез изображений с помощью диффузионных моделей [июнь 2022 г.]
- Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью инверсии текста [август 2022 г.] [Инверсия текста]
- DreamBooth: тонкая настройка моделей преобразования текста в изображение для предметно-ориентированной генерации [август 2022 г.]
- Оперативное редактирование изображений с контролем перекрестного внимания [август 2022 г.]
- Imagic: редактирование реальных изображений на основе текста с помощью диффузионных моделей [октябрь 2022 г.]
- MagicMix: семантическое смешение с моделями распространения [октябрь 2022 г.]
Наконец, в то время как DM занимают больше места для создания изображений, существуют модели, не основанные на DM, с такими же хорошими результатами (например, Make-A-Scene: генерация текста в изображение на основе сцены с человеческими априорами от FAIR) .
Вот и все. Удачного рассеивания.
Мне очень понравилось это волшебное путешествие по созданию образа из излучений Большого Взрыва. Если вы считаете, что есть документ/блог/видео, которые помогли вам попасть в поезд распространения, пожалуйста, поделитесь со мной.
Благодарности: я хотел бы искренне поблагодарить Сен Хе, Джерри Ву и Тао Сян за то, что помогаете мне в этом исследовании и время от времени указываете мне правильное направление.
Последнее примечание: я собрал эти знания за короткий промежуток времени, поэтому в моем понимании могут быть некоторые ошибки. Пожалуйста, дайте мне знать, если что-то, что я сказал здесь, является фактически неверным.