Работа с моделями преобразования текста в изображение, часть 2 (машинное обучение)

Как обнаружить несанкционированное использование данных в моделях распространения текста в изображение (arXiv)

Автор: Чжэньтин Ван, Чэнь Чен, Ючэнь Лю, Линцзюань Лю, Димитрис Метаксас, Шицинг Ма.

Аннотация: последние модели диффузии текста в изображение продемонстрировали удивительную производительность при создании высококачественных изображений. Однако возникли опасения по поводу несанкционированного использования данных в процессе обучения. Одним из примеров является случай, когда тренер модели собирает набор изображений, созданных конкретным художником, и пытается обучить модель, способную создавать подобные изображения, не получая разрешения от художника. Для решения этой проблемы крайне важно обнаруживать несанкционированное использование данных. В этой статье мы предлагаем метод обнаружения такого несанкционированного использования данных путем внедрения введенного запоминания в модели диффузии текста в изображение, обученные на защищенном наборе данных. В частности, мы модифицируем набор данных защищенных изображений, добавляя к изображениям уникальное содержимое, такое как функции скрытого переноса изображений, которые незаметны для человеческого зрения, но могут быть захвачены и запомнены моделями распространения. Анализируя, запоминает ли модель введенный контент (т. е. обрабатываются ли сгенерированные изображения выбранной функцией постобработки), мы можем обнаружить модели, которые незаконно использовали неавторизованные данные. Наши эксперименты, проведенные на модели Stable Diffusion и LoRA, демонстрируют эффективность предлагаемого метода в обнаружении несанкционированного использования данных.

2. Разложить и перестроить: устранение несоответствия условий в моделях распространения текста в изображение (arXiv)

Автор: Луочжоу Ван, Гуйбао Шэнь, Ицзюнь Ли, Ин-конг Чен.

Аннотация: модели диффузии текста в изображение продвинулись в сторону более контролируемой генерации за счет поддержки различных условий изображения (например, карты глубины) помимо текста. Однако эти модели изучаются на основе идеального соответствия условий текста и изображения. Если это выравнивание не выполняется, в окончательном выводе может преобладать одно условие, или может возникнуть двусмысленность, не отвечающая ожиданиям пользователя. Чтобы решить эту проблему, мы представляем не требующий обучения подход под названием «Разложить и перестроить», чтобы еще больше улучшить управляемость существующих моделей при наличии частично выровненных условий. Фаза «Разложение» разделяет условия на основе парных отношений, вычисляя баллы индивидуально для каждой пары. Это гарантирует, что каждая пара больше не будет иметь конфликтующих условий. На этапе «Перестройка» эти независимо рассчитанные баллы выравниваются с помощью механизма перекрестного внимания, чтобы избежать новых конфликтов при их обратном вычислении. Как качественные, так и количественные результаты демонстрируют эффективность нашего подхода при работе с невыровненными условиями, который выгодно отличается от современных методов и, что более важно, добавляет гибкости контролируемому процессу генерации изображений.

Работа с моделями преобразования текста в изображение, часть 2 (машинное обучение)

Похожие вопросы