Что, если функциональность моделей преобразования текста в изображение можно воспроизвести без обучения на одном защищенном авторским правом изображении?

Многие, кто следит за обсуждением этики искусства ИИ, узнают несколько имен: MidJourney, Stable Diffusion of StabilityAI, Dalle-2 OpenAI и Imagen от Google. А вот ЛАИОН-5Б узнали бы немногие. Это название набора данных, лежащего в основе многих из этих моделей преобразования текста в изображение.

Недавно было подано два иска против исследовательских фирм, которые использовали изображения, защищенные авторским правом, в качестве обучающих данных для генераторов преобразования текста в изображение. Я рекомендую следующее видео за его юридическую экспертизу и фантастическую работу

Итак, давайте предположим, что иск идет в пользу правообладателей. Полезность моделей преобразования текста в изображение трудно игнорировать. Как можно было бы достичь аналогичного результата, используя только общественное достояние и творческие ресурсы?

Мотивация двойная. Во-первых, мы обеспечим очень высокую планку этики. Независимо от того, что говорят суды, мы уже понимаем, что многие художники не хотят, чтобы их данные обучались без их явного согласия. Во-вторых, мы можем взять использованные здесь стратегии и применить их в других местах, где недостаточно данных.

В отличие от корпусов из LAION, похоже, не существует единого корпуса общедоступных изображений и связанных с ними подписей. Но беглый поиск показывает следующее:



План? Отделяйте содержание от стиля. Мы можем использовать общедоступные изображения, а затем выполнять дополнение данных на основе стилей, используя одно и то же изображение дважды: один раз для его стиля и один раз для его содержимого. Мы можем использовать существующие модели, которые выполняют перенос стилей, чтобы преобразовать одно изображение в другое для всех стилей, которые мы можем перечислить. И мы можем создать подпись для этого соответствующего изображения.

В следующем выпуске этой серии я подробно остановлюсь на этой идее: покажу несколько рисунков, объясняющих предлагаемый мной процесс обучения, объясню, как фильтровать эстетически привлекательные изображения, воспроизведу, как Midjourney выполняет совместное творчество с Discord, и подробнее о длительном процессе создание радикально этичной стабильной диффузии. Если это звучит интересно, не стесняйтесь следовать за мной. Спасибо за прочтение.

Благодарности

Большое спасибо моему коллеге Ричарду, чьи наводящие вопросы заставили меня задуматься и обосновать мою догадку.