Новое исследование генеративно-состязательных сетей, часть 6 (Машинное обучение, 2023 г.)

ReGANIE: исправление ошибок инверсии GAN для точного редактирования реального изображения (arXiv)

Автор: Бинчуань Ли, Тяньсян Ма, Пэн Чжан, Мяо Хуа, Вэй Лю, Цянь Хэ, Цзыли И.

Аннотация: Семейство StyleGAN преуспело в генерации изображений с высокой точностью и позволяет гибко и правдоподобно редактировать сгенерированные изображения, манипулируя семантическим богатым пространством скрытого стиля. Однако проецирование реального изображения в его скрытое пространство сталкивается с неотъемлемым компромиссом между инверсией качество и редактируемость. Существующие методы инверсии StyleGAN на основе кодировщика или оптимизации пытаются смягчить компромисс, но имеют ограниченную производительность. Чтобы принципиально решить эту проблему, мы предлагаем новую двухэтапную структуру, назначив две отдельные сети для редактирования и реконструкции соответственно, вместо того, чтобы уравновешивать их. В частности, на этапе I сеть инверсии StyleGAN, ориентированная на W-пространство, обучается и используется для выполнения инверсии и редактирования изображений, что обеспечивает возможность редактирования, но жертвует качеством реконструкции. На этапе II используется тщательно разработанная выпрямляющая сеть для исправления ошибок инверсии и выполнения идеальной реконструкции. Экспериментальные результаты показывают, что наш подход дает почти идеальные реконструкции без ущерба для возможностей редактирования, что позволяет точно манипулировать реальными изображениями. Кроме того, мы оцениваем производительность нашей выпрямляющей сети и видим большую обобщаемость в отношении невидимых типов манипуляций и изображений вне домена.

2. Преобразование изображения лица с несколькими кадрами с помощью предварительной дистилляции GAN (arXiv)

Автор: Руоюй Чжао, Мингруй Чжу, Сяоюй Ван, Наннань Ван.

Аннотация: За последние годы перевод изображений лиц добился заметного прогресса. Однако при обучении на ограниченных данных производительность существующих подходов значительно снижается. Хотя в некоторых исследованиях были предприняты попытки решить эту проблему, они либо не смогли достичь установки с несколькими выстрелами (менее 10), либо смогли получить лишь субоптимальные результаты. В этой статье мы предлагаем предварительную дистилляцию GAN (GPD), чтобы обеспечить эффективную трансляцию изображения лица с несколькими кадрами. GPD содержит две модели: сеть учителей с GAN Prior и сеть учеников, выполняющую сквозной перевод. В частности, мы адаптируем сеть учителей, обученную на крупномасштабных данных в исходном домене, к целевому домену всего с несколькими образцами, где она может изучить знания целевого домена. Затем мы можем добиться увеличения нескольких кадров, создавая изображения исходного и целевого доменов одновременно с одними и теми же скрытыми кодами. Мы предлагаем модуль дистилляции знаний на основе привязки, который может полностью использовать разницу между обучением и дополненными данными для дистилляции знаний сети учителей в сеть учеников. Обученная студенческая сеть достигает отличной производительности обобщения с поглощением дополнительных знаний. Качественные и количественные эксперименты показывают, что наш метод дает более высокие результаты, чем современные подходы, в условиях нескольких выстрелов.

Новое исследование генеративно-состязательных сетей, часть 6 (Машинное обучение, 2023 г.)

Похожие вопросы