В 2014 году исследователь машинного обучения Ян Гудфеллоу представил идею генеративных состязательных сетей или GAN. Генеративные, потому что они выводят такие вещи, как изображения, а не прогнозы относительно входных данных (например, хот-дог или нет); Состязательные сети, потому что они используют две нейронные сети, конкурирующие друг с другом в игре в кошки-мышки, как кассир и фальшивомонетчик: одна пытается обмануть другую, заставляя думать, что она может генерировать реальные примеры, другая пытаюсь отличить настоящее от подделки.

Первые изображения GAN было легко идентифицировать людей. Рассмотрим эти лица из 2014 года.

Но последние примеры лиц, сгенерированных GAN, опубликованные в октябре 2017 года идентифицировать труднее.

Вот некоторые вещи, на которые вы можете обратить внимание, пытаясь распознать изображение, созданное GAN. Мы сосредоточимся на лицах, потому что они являются обычным полигоном для исследователей, и многие из артефактов, наиболее заметных на лицах, появляются и на других типах изображений.

Прямые волосы похожи на краску

Длинные волосы обычно выглядят сверхпрямыми, когда небольшая прядь кажется хорошей, а длинная прядь выглядит так, как будто кто-то размазал пучок акрила мастихином или огромной кистью.

Текст не поддается расшифровке

GAN, обученные на лицах, с трудом улавливают редкие вещи на заднем плане с большим количеством структур. Кроме того, GAN показаны как исходная, так и зеркальная версии обучающих данных, что означает, что у них есть проблемы с моделированием записи, поскольку она обычно отображается только в одной ориентации.

Фон сюрреалистичный

Одна из причин, по которой лица из GAN выглядят правдоподобными, заключается в том, что все данные обучения сосредоточены. Это означает, что модель GAN имеет меньшую вариативность, когда речь идет, например, о размещении и визуализации глаз и ушей. С другой стороны, фон может содержать что угодно. Это слишком много для моделирования GAN, и в конечном итоге он воспроизводит общие фоновые текстуры, а не «настоящие» фоновые сцены.

Асимметрия

Для GAN может быть сложно управлять зависимостями между изображениями на большом расстоянии. Хотя парные аксессуары, такие как серьги, обычно совпадают в наборе данных, их нет на сгенерированных изображениях. Или: глаза имеют тенденцию указывать в одном направлении, и они обычно одного цвета, но сгенерированные изображения очень часто пересекаются и гетерохроматичны. Асимметрия также часто видна в ушах, которые очень различаются по высоте или размеру.

Странные зубы

GAN могут собрать общую сцену, но в настоящее время испытывают трудности с полурегулярными повторяющимися деталями, такими как зубы. Иногда GAN приводит к смещению зубов или необычным образом растягивает или сжимает каждый зуб. Исторически эта проблема проявлялась в других областях, таких как синтез текстур с изображениями, такими как кирпичи.

Грязные волосы

Это один из самых быстрых способов идентифицировать изображение, созданное GAN. Обычно GAN собирает волосы в пучки, создает случайные пряди вокруг плеч и бросает густые волоски на лоб. Прически очень разнообразны, но в то же время содержат много деталей, что делает их одним из самых сложных моментов для захвата GAN. То, что не является волосами, иногда тоже может превратиться в структуру волос.

Нестереотипное гендерное представление

Этот GAN был обучен на подмножестве CelebA, которое содержит 200 тыс. Изображений 10 тыс. Лиц знаменитостей. В этом наборе данных я не видел примера человека с растительностью на лице, сережками и макияжем; но GAN регулярно смешивает различные атрибуты из стереотипных гендерных представлений. В более общем плане, я думаю, это связано с тем, что GAN не всегда изучают те же категории или двоичные файлы, которые социально подкрепляют люди (в данном случае мужчина против женщины). Здесь важно внести ясность: как и асимметрия, нестереотипное гендерное представление по своей сути не является показателем того, что изображение не является настоящим. В отличие от растрепанных волос, это не столько визуальный артефакт, который присутствует на отдельных изображениях, сколько несоответствие в статистике соответствия по большой коллекции изображений.

Полурегулярный шум

Некоторые области, которые в остальном являются монохромными, могут демонстрировать полурегулярный шум с горизонтальными или вертикальными полосами. В приведенных выше случаях это, вероятно, сеть, пытающаяся имитировать текстуру ткани. Старые GAN имеют гораздо более заметный шумовой узор, который обычно описывается как артефакты шахматной доски.

Радужный цвет растекания

Некоторые участки с более светлыми сплошными цветами имеют многоцветный оттенок, включая воротник, шею и белки глаз (не показаны).

Примеры реальных изображений

Обратите внимание на четкий фоновый текст, на эти подходящие серьги, на зубы одинакового размера, на детализированные прически. Имея в виду все эти уловки, попробуйте сыграть в эту игру, которая проверяет вашу способность отличать настоящее от подделки, и посмотрите, сколько из них у вас получится. Примечание. У некоторых людей были проблемы с нажатием кнопки Пуск.

Обновление (13 декабря 2018 г.)

Спустя год после Постепенного роста GAN, в результате которого были получены приведенные выше изображения, те же исследователи опубликовали Архитектуру генератора на основе стилей для GAN. Посмотрите видео. Эта новая работа улучшает многие из вышеперечисленных проблем.

При низком разрешении почти все изображения на бумаге неотличимы от фотографий. Мне выделяются лишь несколько артефактов, к которым я постараюсь обратиться.

Пропавшая серьга

Этот сбой проявляется на нескольких изображениях в одном и том же месте. Это могло быть связано с тем, что нейронная сеть пыталась создать серьги и потерпела неудачу, потому что все они происходят из одного и того же «исходного» изображения, и в одном случае при смешивании со «средним стилем», показывающим женское лицо, в этом месте появляется серьга. Это также может быть не связано, потому что другой пример показывает похожий сбой на нескольких изображениях в совершенно другом месте.

Асимметрия

В центре показано среднее лицо из набора данных, основанного на 70 тыс. Фотографий, сделанных пользователями Flickr со всего мира. Похоже, что серьга находится в правом ухе (левая часть изображения), но не в левом ухе. Это не суждение о том, является ли наличие сережки в одном ухе правильным или неправильным, а о том, одинаково ли распространена такая асимметрия в наборе данных. Несоответствующие размеры ушей на правом изображении - еще один пример асимметрии. Другим примером слишком частой асимметрии может быть это лицо с некоторым косоглазием: один глаз, кажется, смотрит в другом направлении, чем другой.

Странные зубы

Они все еще там, но вам, возможно, придется присмотреться. В этом примере у одного зуба есть промежуток посередине. На других изображениях они показывают, что все зубы скользят в одну сторону.

Грязные волосы

Также все еще есть, но обычно смешивается немного лучше.

Живописный рендеринг

Это изображение имеет необычную акварельную эстетику. Непонятно, почему это могло появиться. В своей предыдущей работе они использовали сеть сверхвысокого разрешения для предварительной обработки обучающих изображений. Если бы они использовали ту же систему здесь. На другом изображении «скопированные грубые стили» эта область выглядит как некий вариант ярко окрашенной рубашки.