Полное руководство по генеративно-состязательным сетям (GAN)

GAN — это больше, чем просто прорыв в области глубокого обучения; они представляют собой качественный скачок в возможностях искусственного интеллекта. GAN способны создавать гиперреалистичные изображения, видео и аудио, которые часто могут обмануть даже самых умных людей-наблюдателей. Их можно использовать для всего: от развлечений и игр до научных исследований и медицинских открытий.

Последствия GAN ошеломляют, и они быстро меняют ландшафт технологий, какими мы их знаем. Благодаря GAN машины больше не ограничиваются только обработкой данных; теперь они могут творить и воображать, как никогда раньше. Потенциал GAN действительно ошеломляет, и мы только начинаем исследовать возможности этой невероятной технологии.

Давайте углубимся в GAN!

Что такое ГАН?

Генеративно-состязательная сеть (GAN) состоит из двух частей: генератора, который создает новые данные, и дискриминатора, который пытается определить, являются ли новые данные реальными или поддельными. Генератор и дискриминатор обучаются вместе, при этом генератор становится лучше в создании реалистичных данных, а дискриминатор лучше в отличии реального от подделки. GAN уникальны, потому что они могут генерировать новые данные, которые очень похожи на исходный набор данных, что делает их полезными в широком диапазоне приложений, таких как создание реалистичных изображений или видео.

Как работают GAN

Представьте, что вы хотите нарисовать кошку, но не умеете рисовать. Вы можете попросить друга нарисовать для вас кошку, а затем попробовать ее скопировать. Это похоже на обучение с учителем, когда у вас есть набор данных с помеченными примерами, и вы обучаете модель предсказывать правильную метку для каждого примера.

Однако что, если у вас нет помеченных примеров кошек? Вы можете попытаться представить, как выглядит кошка, и нарисовать что-то, что, по вашему мнению, похоже на кошку. Затем вы можете попросить кого-нибудь сказать вам, похож ли ваш рисунок на настоящего кота или нет. Основываясь на их отзывах, вы можете изменить свой рисунок и попробовать еще раз. Это похоже на использование неконтролируемого обучения, когда у вас нет помеченных примеров, и вы пытаетесь изучить основную структуру данных.

Присоединяйтесь к 20 000 своих коллег на Еженедельном глубоком обучении, чтобы узнавать о последних продуктах, приобретениях, технологиях, подробностях и многом другом.

Вот тут-то и появляются GAN. GAN состоит из двух частей: генератора и дискриминатора. Генератор принимает вектор случайного шума и генерирует поддельное изображение, в то время как дискриминатор принимает как реальные изображения, так и поддельные изображения, созданные генератором, и пытается различить их.

Поначалу генератор выдает очень некачественные изображения, которые дискриминатору легко идентифицировать как подделку. Однако по мере того, как генератор становится лучше в генерации изображений, дискриминатор также становится лучше в определении разницы между реальными и поддельными изображениями.

Генератор и дискриминатор обучаются вместе в цикле обратной связи, при этом генератор пытается генерировать изображения, которые могут обмануть дискриминатор, заставив его думать, что они настоящие, и дискриминатор лучше различает реальные и поддельные изображения. Этот процесс продолжается до тех пор, пока генератор не сможет создавать изображения, очень похожие на реальные изображения, и дискриминатор перестанет различать их.

В конце концов, генератор может изучить базовую структуру данных и создать новые изображения, похожие на реальные изображения. Это делает GAN мощным инструментом для создания новых изображений, видео и других типов данных.

Реализация GAN на Python

Эта реализация генерирует поддельные изображения рукописных цифр из набора данных MNIST.

Импорт необходимых библиотек:
Сначала мы импортируем необходимые библиотеки, в том числе TensorFlow, Keras.

Определение сети генератора:

Следующим шагом является определение сети генератора с использованием библиотеки Keras в Python. Генератор принимает случайный ввод из 100 измерений и создает выходное изображение. Сеть состоит из нескольких слоев, включая плотную, пакетную нормализацию, дырявую активацию ReLU и сверточные транспонированные слои. Назначение каждого слоя — преобразовать входные данные в пространство более высокого измерения и создать более сложный результат. Последний слой использует функцию активации гиперболического тангенса для вывода изображения со значениями пикселей от -1 до 1, которое представляет изображение в градациях серого. Результирующий вывод генератора можно использовать для создания реалистичных изображений, как это часто делается в таких приложениях, как создание изображений и передача стилей.

Определение сети дискриминатора:

Следующим шагом является определение сети дискриминатора. Дискриминатор принимает изображение в качестве входных данных и определяет, является ли изображение реальным или поддельным. Сеть состоит из нескольких слоев, включая сверточные слои с размером ядра 5x5, шагом 2 и функцией активации ReLU с утечкой. За сверточными слоями следует слой отсева с коэффициентом отсева 0,3 для предотвращения переобучения. Наконец, выходные данные сверточных слоев выравниваются и передаются в плотный слой с одним выходным сигналом, представляющим решение дискриминатора о том, является ли входное изображение реальным или поддельным. Результирующий вывод дискриминатора можно использовать для оценки качества сгенерированных изображений и предоставления обратной связи генератору для улучшения его вывода.

Определение функций потерь:

Следующим шагом является определение функций потерь, которые используются для обучения сетей дискриминатора и генератора в модели GAN. Первая функция потерь предназначена для дискриминатора и определяется как сумма двух бинарных кросс-энтропийных потерь. Термин real_loss измеряет разницу между выходными данными дискриминатора для реального изображения и меткой «1» (настоящее), в то время как член fake_loss измеряет разницу между выходными данными дискриминатора для сгенерированного (фальшивого) изображения и меткой «0» (фальшивое изображение). ). total_loss представляет собой сумму двух потерь и используется для оптимизации весов дискриминатора. Вторая функция потерь предназначена для генератора и определяется как двоичная кросс-энтропия между выходом дискриминатора для сгенерированного изображения и меткой «1» (реальная). Эта потеря используется для оптимизации веса генератора и улучшения его способности генерировать реалистичные изображения.

Определение оптимизатора:
Следующий шаг определяет два оптимизатора Адама для сетей генератора и дискриминатора соответственно. Оптимизатор — это инструмент, используемый при обучении нейронной сети, который определяет, как должны обновляться веса сети на основе выходных данных функции потерь. Оптимизатор Адама — популярный оптимизатор, который использует адаптивные скорости обучения и импульс для эффективного обновления весов сети. Скорость обучения для обоих оптимизаторов установлена на уровне 1e-4, что является общим значением для обучения GAN. Оптимизатор является важным компонентом обучения GAN, поскольку он определяет, как сети генератора и дискриминатора корректируют свои веса для получения более реалистичных изображений и принятия более точных решений соответственно.

Обучение модели GAN.
Следующим шагом является определение функции, которая обучает модель GAN с использованием пакета изображений. Он генерирует случайный шум и вычисляет градиенты сетей генератора и дискриминатора относительно функций потерь генератора и дискриминатора соответственно. Затем вычисляются функции потерь на основе реальных и поддельных выходных данных. Наконец, градиенты применяются к оптимизатору для обновления весов и смещений сетей, чтобы минимизировать функции потерь. Использование декоратора TensorFlow tf.function оптимизирует производительность функции, преобразовывая ее в граф для эффективного выполнения на GPU или TPU.

Подготовьте данные:

Следующим шагом является подготовка данных и обучение модели GAN для создания новых изображений рукописных цифр с использованием набора данных MNIST. Набор данных сначала загружается и нормализуется к значениям от -1 до 1. Затем сети генератора и дискриминатора инициализируются с помощью функций make_generator_model() и make_compiler_model(). Модель обучается для определенного количества эпох и размера пакета с использованием набора данных train_dataset, который представляет собой объект набора данных TensorFlow, который перемешивает изображения и группирует их в пакеты. Общая цель GAN состоит в том, чтобы обучить генератор создавать реалистичные изображения, которые могут обмануть дискриминатор, заставив его думать, что они настоящие, в то время как дискриминатор пытается отличить настоящие изображения от поддельных.

Последний шаг.
Последний шаг — реализация цикла обучения для модели GAN. Для каждой эпохи он перебирает обучающий набор данных в пакетах и вызывает функцию train_step для обновления сетей генератора и дискриминатора. Каждые 10 эпох он генерирует 16 изображений из сети генератора, подавая случайный шум и рисуя их с помощью Matplotlib. Сгенерированные изображения сначала уменьшаются до исходного диапазона [0, 255], а затем преобразуются в целые числа для отображения. Наконец, сгенерированные изображения отображаются с помощью plt.show(). Это позволяет нам визуализировать прогресс модели GAN, поскольку она со временем учится генерировать более реалистичные изображения.

Преимущества сетей GAN:

Сети GAN могут генерировать данные, которые сложно создать традиционными методами, например изображения несуществующих объектов или реалистичные видео из входных данных с низким разрешением.
GAN можно использовать для улучшения моделей машинного обучения путем создания синтетических данных, которые можно использовать для расширения наборов обучающих данных.
GAN можно использовать для создания реалистичных 3D-моделей, которые можно использовать в различных приложениях, таких как виртуальная реальность и игры.

Недостатки GAN:

GAN могут давать предвзятые или вводящие в заблуждение результаты из-за отсутствия контроля над генерируемым контентом, что может иметь негативные последствия для общества.
GAN могут быть дорогостоящими в вычислительном отношении и требовать больших объемов данных для обучения, что может затруднить их использование на практике.
GAN могут страдать от коллапса модели, который возникает, когда генератор выдает ограниченное количество выходных данных, уменьшая разнообразие генерируемого контента.

Важно тщательно взвесить преимущества и недостатки использования GAN в любом конкретном приложении и принять соответствующие меры для устранения любых потенциальных рисков. По мере того, как исследования в области GAN продолжаются, мы можем ожидать появления новых методов и приложений, которые еще больше расширят их возможности при решении проблем, которые они создают. В конечном счете, ответственное и этичное использование GAN будет иметь решающее значение для обеспечения их дальнейшего успеха в развитии различных областей и принесении пользы обществу в целом.

Примечание редактора. Heartbeat — это интернет-издание и сообщество, созданное участниками и посвященное предоставлению лучших образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и командам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим нашим авторам и не продаем рекламу.

Если вы хотите внести свой вклад, перейдите к нашему призыву к участию. Вы также можете подписаться на получение нашего еженедельного информационного бюллетеня (Еженедельник глубокого обучения), заглянуть в блог Comet, присоединиться к нам в Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов и событий. и многое другое, что поможет вам быстрее создавать более качественные модели машинного обучения.