На пути к устойчивой генеративной революции ИИ

Сталкиваясь с проблемами роста: как управлять дикой новой эрой сверхподсознания

Творческие мышцы человечества напрягаются из-за неудержимой революции генеративного ИИ. Используя текстовые и другие виды подсказок, люди используют эту технологию для создания потрясающих изображений, видео, трехмерных форм, сред виртуальной реальности и многого другого. И тем не менее, болезни роста начинают появляться в связи с различными вопросами, от прав живых художников до присутствия поколений ИИ на художественных конкурсах, художественных платформах, фондовых библиотеках и т.п.

Я соучредитель одной из первых платформ генеративного ИИ, запущенных в начале этой революции (Geniverse). Я также был мультидисциплинарным художником в течение длительного времени.

Как человек, очень активно работающий в обеих областях (генеративный ИИ и искусство), я намереваюсь поразмышлять над многими аспектами и перспективами, связанными с этими вопросами.

Однако сначала мы вместе отправимся в увлекательное путешествие, чтобы рассмотреть самую суть этой захватывающей технологии с первых принципов, связав все это с человеческим творчеством и умами креативщиков и художников.

А затем мы исследуем хорошее, сложное и слона в комнате текущего состояния этой революции. Наконец, яподумаю о том, как мы все можем внести свой вклад в переход к более устойчивому сценарию за пределами этих быстро меняющихся начальных этапов.

Пристегнитесь, так как в этой статье мы собираемся перейтиот метафор об ИИ к скрытым пространствам, разуму художника, умным генеративным средам и другим сценариям будущего, правам креативщиков, инициативе по обеспечению подлинности контента. (CAI) стандарт и многое другое. Давай начнем.

Приходить домой

Давайте воспользуемся простойметафорой, чтобы понять, что принесет с собой революция генеративного ИИ и что все это подразумевает в отношении творческих людей, художников и всего человечества.

Однажды вы попали в океан жизни. Это довольно обширный океан, океан информации.

Давайте представим, что вы состоите из двух точек зрения или частей: вашего подсознания и вашего сознания. А давайте представим ваше подсознание в виде кухонного горшка, плавающего в этом океане информации.

Ваш главный приоритет в этом океане — выжить и, надеюсь, процветать. Для этого вам нужна информация. Итак, вы хотите добавить в свой горшок достаточное количество качественных ингредиентов, а также комбинировать и комбинировать эти ингредиенты, чтобы генерировать знания и идеи, которые помогут вам достичь ваших целей.

Над вашим подсознательным горшком находится эта рассеянная таинственная сияющая сфера, представляющая наше сознание (о котором мы еще так мало знаем).

Итак, вот и вы. Плавая в океане жизни, ваше таинственное сознание иногда дает направление процессу приготовления пищи, происходящему в вашем подсознательном котле.

Все это время это подсознание постоянно комбинирует, смешивает и снова смешивает всевозможные ингредиенты (информацию), которые достигают его через наши органы чувств.

И иногда эти комбинации могут стать семенами новых идей. Говоря метафорически, мы можем представить хрупкие, едва уловимые пузырьки, возникающие в результате этого процесса приготовления пищи, поднимающиеся из подсознания в сознание. И, если в наших умах есть пространство, если они не полны шума, мы можем тогда воспринять эти хрупкие пузыри, и: Эврика! Идея!

Но здесь есть проблема. Слишком много информации об этом океане, слишком много сложности. И наш подсознательный горшок имеет ограниченный размер. Он не жесткий. Он какой-то гибкий, податливый до определенного момента. Но его размер все еще ограничен.

Поэтому природа разработала механизм для решения этой проблемы, связанной с огромной сложностью океана жизни: процессы сжатия и разуплотнения.

Наш мозг способен воспринимать информацию, поступающую через органы чувств, и сжимать ее в форму, в которой меньше деталей и больше абстракции.

Давайте начнем визуализировать эту очень важную ось, ось абстракции деталей. Когда мы сжимаем сложность жизни, мы переходим от высокой детализации (и пространства более высокого измерения) к высокой абстракции (в пространстве более низкого измерения).

Итак, в наших подсознательных горшках мы собираем эти сжатые представления о сложности мира в том, что мы иногда называем: скрытые пространства.

Эти скрытые пространства содержат абстрактную сущность различных информационных областей. Мы избавляемся от неинформативных деталей и сохраняем ряд сокращенных измерений, каждое из которых документирует релевантные и полезные факторы, относящиеся к той информационной области, к которой принадлежат данные.

Наш мозг может делать и противоположный процесс. Он может выполнять декомпрессию и переходить от высокой абстракции к высокой детализации.

«Представь слона!» Мы слышим эти слова, и образ слона всплывает в нашем сознании. Мы просто запустили противоположный процесс и распаковали это высоко абстрактное представление (слон) в очень подробную визуализацию в своем уме.

Процессы, которые мы только что исследовали, очень похожи на процессы, происходящие в сетях ИИ. Мы обучаем сети ИИ учиться сжимать многомерные домены (например, домены естественных изображений) в скрытые пространства, которые сохраняют абстрактную сущность этих доменов в гораздо меньшем количестве измерений.

И мы также обучаем их распаковыватьлюбую точку в этих скрытых пространствах в соответствующее многомерное представление, принадлежащее исходной информационной области.

Когда мы исследуем сложные системы генеративного ИИ, от DALLE-2 (OpenAI) до Imagen (Google), Stable Diffusion (Stability.ai) и далее мы находим различные промежуточные этапы, которые, например, могут переводиться между модальностями, выполнять процессы диффузии, масштабировать входы и выходы и т. д.; но исходной базой, общей для всех этих систем, являются эти процессы сжатия и распаковки, которые позволяют нам перемещаться в обоих направлениях между высокой детализацией и высокой абстракцией.

Специфика систем ИИ зависит от поставленной перед нами цели. Мы можем захотеть масштабировать изображения или повысить их резкость, или создать совершенно новые изображения в зависимости от текстовых подсказок, или некоторые из этих вещей вместе, или что-то совершенно другое. Это определит, какую цель обучения и набор данных мы используем, а также точные детали различных частей окончательной архитектуры.

Ключевая стратегия, используемая в настоящее время ведущими системами генеративного ИИ, основана на том, что мы называем диффузией. Система стабильной диффузии, например, использует архитектуру, подобную U-Net, которая была обучена (с большим набором данных) для прогнозирования шума, добавленного к изображению.

После обучения одна и та же сеть может перейти от различных комбинаций изображение+шум (в том числе от полного случайного шума) обратно к высококачественному изображению за несколько шагов.

Он также может переходить от изображения к другому, добавляя некоторый шум к исходному изображению, а затем выполняя тот же процесс, что и раньше.

Чтобы эти поколения двигались в правильном направлении, они обусловлены сжатым представлением введенной нами текстовой подсказки (которое внедряется в различные части архитектуры U-Net).

Хватит технических подробностей. Давай продолжим.

ИИ возвращается домой

Итак, с революцией генеративного ИИ мы становимсяближе к нашей сущности как существам, способным выполнять взаимодополняющие процессы конвергенции и дивергенции ( компрессия и декомпрессия), выраженные через наши аналитические и творческие мышцы.

После десятилетия, в течение которого мы постепенно расширяли и развивали возможности конвергенции систем глубокого обучения ИИ (способные прогнозировать, рекомендовать, классифицировать, идентифицировать и т. д.), революция генеративного ИИ завершает цикл, добавляя сверхчеловеческие возможности дивергенции (способные создавать и генерировать ). ИИ возвращается домой.

Магия скрытых пространств

Но что мы на самом деле имеем в виду, когда говорим о скрытых пространствах или абстрактных сжатых представлениях? Мы находим ответ внутри себя, на очень простом примере.

Я гуляю на природе. Когда я возвращаюсь, мой друг спрашивает меня, как прошла прогулка. Я говорю: «Чудесно, я видел красивую цикаду!». И она спрашивает меня: «Как выглядела цикада?»

В этот момент я визуализирую цикаду в своем уме. Давайте представим, что моя визуализация выражена сеткой из 1000 х 1000 световых точек. Это пространство с миллионом измерений. Если точки имеют цвет, то каждая из них будет иметь красную, зеленую и синюю составляющую (в 3 раза больше размерности).

Итак, я мог бы начать описывать цикаду своему другу со слов: «Ну, первая точка света в верхнем левом углу моей визуализации имеет 15 красных, 25 зеленых и 77 синих. Следующая точка справа имеет интенсивность красного цвета 145, интенсивность зеленого 55… и т. д., следующая имеет… и т. д.». И я мог бы продолжать в том же духе через 1 миллион точек света. Проблемы с этим подходом очевидны.

На описание цикады у меня может уйти месяц, и к тому времени моего друга уже давно не будет. Эффективность нулевая. Но главная проблема даже не в этом.

Знать, что одна из этих миллионов точек имеет 155 единиц интенсивности красного цвета, просто не очень полезно. Мелкие деталичасто не дают нужной информации. Вот почему я буду делать что-то другое.

Я соберувсю эту сложность и богатство деталей цикады всего в несколько измерений, 30, 50, 100 факторов (во всяком случае, небольшое число), которые объясняют суть того, что я видел.

И я скажу своему другу: смотри, у него была широкая голова, крепкое зеленое тело и прозрачные перепончатые крылья. 4 крыла, и на крыльях были вот такие узоры. И у него были большие сложные глаза, такое-то количество глаз и шесть ног, и ноги были вот такими, и т. д. Я сжал изображение с высокой детализацией в небольшое количество измерений, которые передают важную и уместную информацию.

И вот моя подруга слышит это и делает обратный процесс, декомпрессию.

Она трансформирует эти несколько сжатых измерений, выражающих суть увиденного, и раздувает их, чтобы визуализировать в своем уме представление с высокой детализацией, которое соответствовало бы этой сущности, образ цикады (который будет отличаться от тот, который я визуализировал, из-за процесса сжатия-распаковки, а также других различий между задействованными системами и предыдущими знаниями, которые каждый из нас имел в отношении соответствующего сценария).

И таким образом, каждый раз, когда мы что-то вспоминаем, мы как бы перестраиваем это, переосмысливаем, воссоздаем из той сущности, которую мы сохранили (точность этого процесса также во многом зависит от богатства соответствующего скрытого пространства, а также как количество сенсорных модальностей, участвующих в его создании, между другими факторами).

Ниже представлена инфографика, которую я создал несколько месяцев назад о работе DALLE-2, сравнивая ее процессы с тем, что происходит в человеческом мозгу.

Маленький горшок, Гигантский горшок

Есть много различий между тем, что происходит в нашем мозгу и в этих сетях ИИ, но одно различие, которое имеет особое отношение к этой статье, — это размер этого подсознательного горшка, образно говоря.

Наш подсознательный котел наполняется жизненным опытом. Когда мы разговариваем с людьми, когда мы познаем мир, мы обогащаем его содержание. В конце концов, его кулинарные процессы генерируют в нашем сознании новые идеи, визуализации, звуки и многое другое.

Сети ИИ питаются (во время обучения) гигантскими наборами данных. Наборы данных, используемые системами генеративного ИИ, состоят из информации, собранной со всего Интернета. Мы говорим об огромных объемах данных.

Итак, с одной стороны, у нас есть мы, люди, с нашими маленькими подсознательными горшками.

С другой стороны, у нас есть эти гигантские горшки с искусственным интеллектом, которые питаются данными со всего Интернета. Часть этих данных находится в открытом доступе. Но не все. И мы обсудим, что это означает и подразумевает, чуть позже.

Глубинный лифт

Пришло время связать все предыдущие разделы с искусством и людьми-художниками. Теперь определение того, что делает художника, является невыполнимой задачей. Вместо этого я сосредоточусь на исследовании того, что было общим для многих великих креативщиков в истории.

Помните ту ось(от детали к абстракции), о которой я говорил выше? В книге, которую я опубликовал много лет назад, я написал о другой метафоре, которую придумал, и назвал ее «лифт глубины».

Представьте себе вертикальную линию, по которой движется лифт. В нижней части строки у нас есть высокоразмерная и высокодетализированная область. Именно здесь в полной мере выражается сложность океана жизни.

Наверху у нас царство сжатых низкомерных латентных пространств, сохраняющих абстрактную сущность нижних царств (здесь живет, например, наш язык).

Художники — мастера навигации по этому лифту глубины гибким, гибким и динамичным способом. Давайте углубимся в это.

Когда мы маленькие младенцы, а позже дети, мы проводим большую часть времени на дне лифта, взаимодействуя с богатством и деталями Вселенной. Наши аналитические ментальные модули еще не полностью развиты. Это наш этап исследования.

Вместо этого большинство взрослых склонны сосредотачиваться на эффективности, повторно используя уже заложенные в их сознании мыслительные модели (что также помогает нам не тратить впустую наше драгоценное топливо — глюкозу, питающую наш мозг). Это наш этап эксплуатации. Таким образом, взрослые проводят много времени в узких башнях из слоновой кости наверху глубинного лифта.

Достижение хорошего баланса между временем, проведенным в обеих половинах элеватора глубины, является здоровой целью. Хороший баланс между конвергенцией и расхождением, между сжатием и декомпрессией, между абстракцией и деталями.

Отсутствие баланса между этими полюсами (в любом направлении) вызывает у взрослых различные проблемы. Я много писал об этих вопросах, но это не тема данной статьи. Вернемся к художникам.

У многих великих художников есть следующая общая черта. Они способны перемещаться по этому элеватору глубины гибко и гибко. Они способны спуститься в глубины на дне лифта, где их ждут богатства вселенной.

И, что очень важно, они не просто опускают пальцы ног и уходят. Вместо этого они могут проводить долгое время внизу, исследуя эти мутные, дикие и ненадежные воды.

Они также способны кристаллизовать это богатство в различных интерпретациях и представлениях, которые могут выражаться на разных уровнях по всей оси, идущей от деталей к абстракциям.

И сами представления, а точнее, их объяснения или способы их передачи, тоже располагаются гораздо ближе к вершине лифта глубины.

Все это отличается от типичного взрослого человека, который большую часть времени проводит наверху или рядом с верхом лифта. И вы догадались, почему.

Потому что находиться на башне абстракции из слоновой кости, на вершине лифта, намного удобнее (и требует меньше топлива), чем перемещаться по грязному дну этой оси, содержащей сложные детали вселенной (метафорически говоря, мы могли бы также сказать, что это намного удобнее, чем пачкать руки, исследуя дикую игровую площадку внизу, в нижней части лифта).

Здесь мы подходим к другому важному моменту. Навигация по этому лифту глубины так, как это удавалось многим величайшим художникам в истории, требует усилий. Это требует времени. Упорство. И, в некотором роде, пойти против естественной предрасположенности нашего взрослого разума быть эффективным и не тратить впустую наше драгоценное топливо.

В связи с этим уместно отметить, что ряд платформ в настоящее время запрещают генеративное искусство ИИ (или помещают его в отдельную категорию или область), поскольку они считают его: «малые усилия»арт.

Да, нужно приложить некоторые усилия, чтобы найти правильную подсказку для управления генеративной архитектурой ИИ. Но усилия и время, необходимые для этого процесса, не идут ни в какое сравнение с годами, а иногда и десятилетиями, которые требуются для освоения процесса, описанного ранее. Мы углубимся в этот вопрос и другие связанные с ним вопросы чуть позже в этой статье. В то же время мы также обдумаем возможные решения таких загадок.

Таким образом, используя эту гибкую навигацию по лифту глубины, великие художники и креативщики могут по-новому выразить богатство вселенной.

Выберите что-нибудь в жизни, скажем, дерево. Вы можете воспринимать дерево очень отстраненно, абстрактно. Или вы можете исследовать все тонкости дерева на очень глубоком и детальном уровне. Если вы способны гибко перемещаться между обоими полюсами, вы находитесь в гораздо лучшем положении для создания чего-то нового и необычного, связанного с этим элементом вселенной.

Великие творческие люди также способны понять различные способы соединения различных областей этого огромного океана, расположенного на дне оси, через различные слои этих вод, а также через верхние слои лифта глубины.

Когда, например, большой творческий ритм переживается, она может выйти за рамки дисциплин, приемов, инструментов и кричащих терминов. Великий креативщик везде видит и чувствует ритм. В свете и тенях, отбрасываемых занавеской, в звуке и движении падающих слез, в танце звезд, в промежутках между нашими мыслями и за их пределами.

На протяжении многих лет и десятилетий великие творцы расширяют и укрепляют скрытые пространства своих подсознательных горшков.

Они также совершенствуют то, как они перемещаются в своих лифтах глубины, что позволяет им соединять детали с абстракцией мощными способами, которые обогащают их творческие процессы.

Кроме того, художники и креативщики часто сотрудничают с другими. Таким образом, разные сосуды подсознания могут обогащать друг друга.

Итак, если вы изучите некоторых из величайших творческих людей и художников в истории, вы увидите, что у всех у них было что сказать, послание, видение. А также то, что такое видение и то, как они его выражали, было неразрывно связано с их способностью, культивируемой в течение десятилетий, плавно перемещаться по этим глубинным лифтам, исследуя как глубины богатства вселенной, так и слоновую кость. башни абстракции и многие царства между обоими полюсами.

Наконец, что касается этих лифтов глубины, следующим шагом будет их визуализация не как изолированных объектов, а как множество воронок, которые взаимосвязаны друг с другом в многомерных пространствах.

Следующее изображение оригами пытается представить небольшой фрагмент этого расширения метафоры.

Однако пришло время остановить лифт и двигаться дальше, чтобы сосредоточиться на обзоре текущего состояния революции генеративного ИИ, а также на способах решения ее нынешних проблем роста.

Итак, используя то, что мы исследовали выше, давайте рассмотрим ситуацию сегодня и в ближайшем будущем, а также то, что можно со всем этим сделать.

Хороший, хитрый и слон в комнате

Давайтеизучим ряд последствий, вытекающих из этого начального этапа революции генеративного ИИ.

Добро

Генеративный ИИне заменит человеческое творчество. Это улучшит его.
Эта технология демистифицирует творчество. Подумайте о том, что сказал Эдисон: гений — это 99 % пота (комбинация, рекомбинация, продуктивная работа и экспериментирование) и 1 % вдохновения (установка семян, полировка и т. д.). Благодаря этой новой технологии мы теперь понимаем, что можем автоматизировать большую часть творческого процесса, часть которого происходит подсознательно в нашем сознании.
Исследования о принятии решений людьми показывают, что мы принимаем более 30 000 решений каждый день. Но нам известны только около 0,26% из них (например, исследования Huawei). Намного больше в нашей жизни, чем мы думаем, происходит подсознательно. Автоматизируя наши подсознательные процессы приготовления пищи с помощью технологии искусственного интеллекта, мы можем положительно повлиять на большую часть нашего существования.
На самом деле я называю эту новую эру «эпохой сверхподсознания».

Думайте об этой технологии как о наборе различных костюмов железного человека, которые усилят ваше подсознание и расширят возможности ваших творческих мышц.
Различные костюмы железного человека будут иметь разные стили, черты и характеры.
Инженеры Prompt — это люди, которые станут экспертами в получении наилучших результатов от этих костюмов железного человека. Они будут знать все входы и выходы, сильные и слабые стороны каждого.
Они также будут мастерами использования своего человеческого опыта и интуиции при взаимодействии с этими мощными усилителями для достижения желаемого результата.
Таким образом, эти оперативные специалисты будут высоко цениться в ближайшие годы. Их роль станет престижной на рынке труда. И мы станем свидетелями большого количества курсов, публикаций и систем, которые будут обучать и помогать людям тренировать этот навык.
Сегодня наши подсказки — это естественный язык и изображения. Но благодаря мультимодальной архитектуре подсказки скоро станут любыми данными, которые мы захотим использовать для управления этими архитектурами (разные системы будут разработаны для обработки различных типов направляющих входных данных).
Первоначальная фаза преобразования текста в изображение теперь перешла к возможностям преобразования текста в видео и преобразования текста в 3D. В конце концов, мы сможем выводить все виды данных с помощью пользовательских систем, которые будут ориентированы на потребности конкретных вертикалей.
Затем мы увидим возможности мультимодального вывода, которые в конечном итоге позволят нам создавать, например, полные фильмы, которые будут включать визуальные эффекты, диалоги, музыку и многое другое.
Эта технология вдохновит новые формы искусства, которые мы пока не можем себе представить. Мультимодальный генеративный искусственный интеллект готов вызвать появление новых способов объединения изученных и неисследованных областей лифта глубины, которые со временем могут стать высоко ценимыми новыми формами художественного выражения.
Генеративный ИИ повлияет на очень большое количество секторов. Он будет использоваться для расширения наборов научных данных за счет синтетических поколений, революционного изменения процессов мозгового штурма, персонализации брендинга способами, которые невозможно было себе представить еще несколько месяцев назад, ускорения развития динамического маркетинга и рекламы «только для вас» в режиме реального времени, а также перевода презентаций всех видов на новый уровень. эпоху, окружив их средствами массовой информации, которые впечатляющим образом соответствуют их содержанию, среди многих других примеров. От фондовых библиотек до дизайнерских бутиков, целые полосы медиа-ландшафта будут спешить и конкурировать за использование этой технологии.
Передовые технологии, такие как VR & AR (и вообще все формы XR), будут включать эту технологию (эксперименты уже продолжаются), и в конечном итоге мы станем свидетелями генерации в реальном времени. иммерсивных пространств, которые умным образом восстанавливаются, отслеживая взгляд пользователя (интересно рассмотреть связи между этими экспериментами и теориями Дональда Хоффмана).
Эта технология также ускорит этап исследования и экспериментирования во многих творческих процессах. Генеративный ИИ позволит нам делать больше за меньшее время, пробовать всевозможные новые направления и углубляться в наши исследования на каждом уровне. глубинный элеватор.
Так называемая «метавселенная» для многих до сих пор является утопией, и ее достойная реализация, похоже, появится в далеком будущем. Если метавселенная когда-либо станет полезной реальностью, это, вероятно, произойдет благодаря технологии генеративного ИИ, которая может стать ключом к ускорению ее реализации.
В будущем мы станем свидетелями появления умных генеративных сред (SGE), которые будут видоизменяться в соответствии с нашими потребностями или эмоциональным состоянием. Дома, места проведения мероприятий и другая среда начнут напоминать органические живые существа, совпадая и напоминая намерения и эмоции их содержимого. Они будут делать это мультимодальными способами. В конце концов, мы сможем общаться с этими средами, и они станут ключевой опорой нашего психического равновесия и здоровья.
Сочетание генеративного ИИ с еще более мощными моделями восприятия, способными интерпретировать каждый тонкий нюанс наших выражений и поведения, позволит нам производить мультимодальные интерпретации нашего эмоционального и психического состояния в реальном времени. В сочетании с новыми итерациями технологии чтения мозговых волн (ЭЭГ, МЭГ и т. д.) это откроет новый вид творческого самовыражения, который буквально будет использовать нашу самую интимную сферу как кисть для создания экстраординарных изображений человеческого состояния.
Хотя некоторые рабочие места находятся и будут находиться в опасности, также весьма вероятно, что новые роли, которые мы пока не можем себе представить, возникнут из-за необходимости управлять этой технологией и взаимодействовать с ней.
В то же время многие из затронутых профессий и ролей выживут и даже будут процветать, принимая эту новую эпоху и адаптируя свои процессы к тому, что предлагает эта новая технология.
Большое количество людей, которые могут не быть профессиональными художниками, но имеют естественную предрасположенность тренировать свои творческие мускулы, будут процветать благодаря этой новой технологии. Они укрепят эти мышцы более быстрым и простым способом и получат новые возможности для увеличения и усиления своего творческого потенциала.
И мы закончим этот раздел так же, как и начали. Напоминая всем нам, что Генеративный ИИ не заменит человеческое творчество. Это усилит его. И что тренировка наших творческих мускулов останется такой же настоятельно рекомендуемой деятельностью. Достижение хорошего баланса между нашей способностью расходиться и конвергировать, сжиматься и разжиматься будет по-прежнему очень важно для нашего психического и духовного здоровья в обозримом будущем.

Хитрый

У нас, людей, есть ограниченный и относительно небольшой сосуд подсознания. Генеративные системы ИИ обучены хранить огромные горшки, которые охватывают большую часть знаний в Интернете.
Из-за этого кажется нечестным и морально неправильным, что творческие люди должны конкурировать с генеративными системами ИИ.
Когда машины победили людей в игре в шахматы (событие гораздо менее значимое, чем это), никто не подумал, что будет очень весело продолжать исследовать шахматные соревнования людей против машин (кроме тех, которые продемонстрировали, что мы проиграли битву). Мы признали, что они лучше. А потом мы пошли разными путями.
Шахматисты-люди используют ИИ, чтобы тренировать себя и становиться лучше (подобно расширяющим и усиливающим возможностям этих метафорических костюмов железного человека, предоставляемых генеративным ИИ). системы).
Системы искусственного интеллекта, которые играют в шахматы или в го, иногда производят действительно красивые ходы, которые никогда не пришли бы в голову человеку. У них как бы есть своя особая перспектива (основанная, конечно, на огромной способности заглядывать вперед во времени). И все же мало кому интересно следить за соревнованиями машина против машины. Люди предпочитают смотреть, как играют другие несовершенные люди.
Главное, в любом случае, то, что они разделяют оба домена. Машины помогают людям-шахматистам тренироваться и становиться лучше. А еще они могут играть между собой. Люди по отдельности играют на своих соревнованиях.
Я считаю, что в конечном итоге то же самое может произойти и с генеративным ИИ (конечно, с рядом отличий, поскольку это очень разные области).
Еще один сложный момент, который следует учитывать, — это ключевой фактор, лежащий в основе некоторого волнения, связанного с этой технологией. И я остановлюсь на этом вопросе в заключительном разделе этой статьи. Давайте пока представим это.
Грег Рутковски, по мнению многих людей, один из лучших, если не лучший, иллюстратор фэнтези-арта на сегодняшний день. И его имя фигурирует в огромном количестве подсказок, используемых для создания одних из самых впечатляющих генеративных искусств ИИ за последнее время.
Итак, после того, как все выбросы дофамина, вызванные созданием удивительных произведений искусства, которые, кажется, были нарисованы Грегом Рутковски, утихнут, после того, как эти выбросы дофамина утихнут, многие люди останутся с сотнями или тысячами изображений, созданных ИИ. или видео, а потом, спросят себя: «А теперь что?»
«Ничего» будет ответом в большинстве случаев. Потому что большинство этих людей на самом деле не тренировали свои творческие мускулы в связи с каким-либо глубоким значимым внутренним побуждением; они использовали эту технологию, как человек, покупающий новый iPhone, в какой-то навязчивой манере, следуя новейшим блестящим технологиям.
И когда это принуждение утихнет, они почувствуют себя опустошенными. Посколькубольшая часть того, что останется позади, принадлежит не им, а принадлежит, среди прочих, Грегу Рутковски и его стилю, выработанному десятилетиями напряженной работы (например, среди многих других ныне живущих художников, чьи работы питает эти сети).
В любом случае будем реалистами. События развиваются слишком быстро, и людям нужно время, чтобы наверстать упущенное. Может быть много решений для текущих сценариев. О некоторых из них я расскажу в конце следующего раздела.

слон в комнате

Системы генерации ИИ возможны только благодаря гигантским наборам данных, которые используются для их обучения.
Генеративные архитектуры ИИ обучаются с помощью массивных наборов данных, состоящих из изображений, видео, текста и вскоре других видов данных.
Эти данные обычно извлекаются из Интернета группами, которые создают эти наборы данных.
Некоторыеданныеиспользуемые в этих наборах данныхявляются общедоступными данными. Кажется справедливым использовать такие данные для создания этих наборов данных.
Но значительная часть данных, используемых в этих наборах данных, принадлежит живым художникам, которые не объявили их общедоступными. Это художники, которые зарабатывают на жизнь, продавая такие данные = продавая свои десятилетия напряженной работы, которые привели к созданию определенного стиля и серии работ.
Эти художники действительно являются основой, на которой эта революция держится на своем стремительном взлете.
Вот и жалуется на это все возрастающий хор живых художников. Некоторые из них заявляют, что произведения живых художников не должны включаться в эти наборы данных. По некоторым данным, их жалобы остаются без внимания. Их в основном игнорируют (по крайней мере, пока).
Если мы игнорируем жалобы этих живых художников, мы игнорируем самих себя. Сегодня мы обсуждаем изобразительное искусство, но завтра это может быть музыка, романы, юридические труды или что-то еще, чем может быть наша профессия или область.
Давайте снова рассмотрим все это с точки зрения того, что многие люди испытывают при использовании этих систем. На чьих плечах был построен прилив дофамина, который человек может почувствовать, когда он создает потрясающее цифровое искусство, которое так невероятно напоминает стиль и объем работ мистера Рутковски? На г-на Рутковского, конечно. В частности, за десятилетия чрезвычайно тяжелой работы и настойчивости, которые г-н Рутковски приложил и вложил для создания этого стиля и совокупности работ.
Стиль и объем работы, которые теперь дают этому человеку такой интенсивный прилив дофамина, когда ему требуется некоторое время, чтобы придумать подсказку, которая включает имя мистера Рутковски, а затем нажать кнопку и с минимальными усилиями получить результат, который очень похоже на его искусство.
Кто-то может сказать: «Но мне потребовалось 50 часов, чтобы придумать подсказку».
Является ли это завышенным числом или нет, оно не меняет того факта, что нет никакого сравнения между чьим-либо изучением языковых подсказок в течение нескольких минут или часов и десятилетиями работы, вложенной такими людьми, как г-н Рутковски.
Это также не меняет того факта, что г-н Рутковски никогда не давал явного разрешения на включение своих работ в наборы данных, используемые этими архитектурами ИИ.
Быстрая разработка – это искусство и наука. И постепенно это станет престижным навыком и дисциплиной.
Будет куча книг и курсов по этому вопросу. Отличные инженеры подсказок будут знать все тонкости, сильные и слабые стороны многих различных архитектур ИИ, и в то же время они смогут применять свою человеческую интуицию для создания подсказок, которые извлекают наилучшие результаты из взаимодействия человека и машины. Действительно.
Но это еще не повод попирать права ближних и ныне живущих художников. А в следующей и заключительной части этой статьи я более подробно расскажу, что мы можем сделать по этому и другим связанным вопросам.
И еще раз подчеркнем следующее: эта революция произошла настолько быстро, что понятно, что людям нужно время, чтобы успетьза всем этим. И этот процесс наверстывания и поиска более устойчивого сценария находится на начальной стадии.
Я всегда буду поддерживать генеративный ИИ,но прежде всего я буду поддерживать и защищать своих творческих коллег (потому что люди и их жизни всегда должны иметь большее значение, чем технологии). Это вопрос этики и морали (правовые аспекты не являются частью этой статьи. Они будут рассмотрены другими, и я считаю, что этика и мораль должны быть первым компасом в этом вопросе).

Это замечательная революция, которая принесет много пользы человечеству. Но, как мы видим, на этих начальных этапах есть и каверзные стороны. Давайте обсудим, как мы можем решить некоторые из них.

Управление революцией

Я рассмотрю этот заключительный раздел с моральных и этических позиций.

Следует ожидать, что в конечном итоге ряд органов и групп введут различные формы регулирования, связанные с этими системами, а компании также введут свои собственные меры безопасности и контроля. Но эти, а также другие правовые точки зрения требуют времени для установления.

Хотяможет быть, не так много времени, как мы ожидали. В конце следующего раздела я прокомментирую Инициативу аутентичности контента (CAI), открытый стандарт,основанный Adobe. К CAI уже присоединились сотни компаний, некоторые из которых уже планируют внедрить его на своих платформах.

Это позволит им отследитьоткуда берется цифровой контент, использовался ли для его создания генеративный ИИ, а также другие факторы, связанные с дезинформацией и защитой прав. создателей.

Давайте теперь подумаем о том, как сделать эту революцию более устойчивой.

Живой художник, десятилетиями разрабатывавший стиль и совокупность работ, чьи права принадлежат исключительно художнику, которого мы рассматриваем, должен иметь право голоса и/или получать компенсацию, если работа этого художника будет включена в любой из этих массивных генеративные наборы данных ИИ.

В противном случае это как если бы, например, вы выставили произведение искусства в галерее, и кто-то приходит и берет его, забирает и получает от этого прибыль. Существует нечто, известное как авторское право, которое не исчезло волшебным образом в начале революции генеративного ИИ.

Некоторые приведут в пример YouTube, говоря, что на начальных этапах Youtube как бы махал рукой по этим вопросам, иначе они бы никогда не взлетели. Как мы все знаем, в настоящее время и в течение длительного времени YouTube использует очень строгий набор механизмов защиты авторских прав на своей платформе. Дело в том, что генеративный ИИ уже получил огромное распространение. Итак, начальная фаза «какого черта» понятна, но сейчас она позади. Поэтому момент, чтобы начать защищать права создателей, как это пришлось делать YouTube и другим подобным платформам, настал прямо сейчас.

Наконец, нам нужно обсудить очень важный вопрос, серые зоны. Чтобы добраться туда, давайте быстро рассмотрим вопрос, который мы поднимали в предыдущих разделах.

Несправедливо, когда люди и машины соревнуются в одних и тех же художественных конкурсах, художественных платформах и тому подобном. У людей есть маленькие горшки подсознания. Системы ИИ имеют массивные. Горшки подсознания человека содержат ограниченный опыт его жизни, одной жизни. Системы ИИ содержат знания миллионов или миллиардов людей. Давайте по-настоящему. Нечестно и неэтично заставлять их конкурировать друг с другом.

Вместо этого, как это случилось с шахматами, мы можем представить себе отдельные секции в художественных конкурсах и на арт-площадках. Искусство, созданное людьми. Искусство, созданное ИИ. И это уже происходит на многих платформах по всему миру. Но этот момент приводит нас, наконец, к серым зонам.

Серые зоны.

«Подождите, видите ли, эта штука не была полностью произведена искусственным интеллектом. Я использовал ИИ для производства части работы, да, это правда, но потом я его отшлифовал, построил поверх него, и, следовательно, это законно, верно?»

Мы будем много слышать об этом. Поэтому крайне важно рассмотреть такой сценарий.

В недавнем постановлении Бюро авторских прав США в отношении запроса на регистрацию произведения искусства, созданного ИИ, говорится, что человеческое авторство является необходимым условием для защиты авторских прав в Соединенных Штатах и что Произведение поэтому не может быть зарегистрировано. Расширенное обсуждение этого постановления можно найти здесь.

Но опять же, мы столкнемся (и это уже происходит) с серыми зонами. В промежутках. И я считаю, что ответ на эти вопросы лежит в обсуждении —общественное достояние или необщественное достояние —.

Потому что в каком-то смысле все изменилось, но в то же время ничего не изменилось. Вот так:

До того, как генеративный ИИвзорвался, вы могли зайти в поиск Google, найти общедоступные изображения, видео или любые другие данные и включить их в свой творческий процесс, и все было справедливо и хорошо.
До появления генеративного ИИ вы не могли зайти в поиск Google, найти изображения, видео или любые другие данные, не являющиеся общественным достоянием, от живого художника и взять их. и включить их в свою работу, не спрашивая разрешения (очевидно, когда вы пытаетесь извлечь выгоду из полученного сочетания их работы и вашей. Мы не обсуждаем здесь случаи, когда вы просто используете некоторые онлайн-произведения для экспериментов самостоятельно, в частном порядке, без поиска извлекать из этого какую-либо прибыль).

Ну, угадайте что. Это ответ. Ничего нового. Ответ заключается в том, что те же критерии могут применяться и в дальнейшем.

По мере того, как мы совершаем революцию в сфере генеративного ИИ, должно быть разрешено использовать эту технологию, когда она связана с наборами данных, в которых используются только общедоступные данные (или данные живых художников, которые явно получив разрешение на использование своих творений в этих наборах данных). Мы снова имеем в виду только сценарии, направленные на получение прибыли от использования этой технологии.
Недопустимо использовать эту технологию полностью или частично при использовании наборов данных, содержащих данные, не являющиеся общественным достоянием, если вы собираетесь использовать результат в каких-либо коммерческих целях. Вы можете поэкспериментировать с ним для личного использования, как это делают некоторые люди в наши дни, когда загружают произведение искусства известного живого художника, но, конечно, не в коммерческих целях.

Это мысли, основанные, я полагаю, на здравом смысле. Но другие могут выдвинуть новые идеи относительно способов вознаграждения артистов, которые могут предоставить новые возможности для решения этой головоломки. И YouTube снова дает подсказку о том, как могут выглядеть некоторые альтернативные способы решения этих проблем (подробнее об этом ниже).

Итак, художественные конкурсы, художественные платформы, платформы стоковых изображений и т. п. могут попросить участников раскрыть:

Если они использовали генеративную технологию искусственного интеллекта.
Если да, то какой из них они использовали и какие наборы данных поддерживают эту технологию.
Если наборы данных, лежащие в основе этой технологии, содержат только общедоступные данные, они могут принять решение открыть свои двери для этой работы.
Если задействованные наборы данных также содержат данные, не являющиеся общественным достоянием, они могут принять решение закрыть свои двери для этих работ или поместить их в отдельный раздел.
Люди могут лгать, конечно. Таким образом, мы также станем свидетелями появления автоматизированных систем, способных распознавать, соответствует ли часть вашей работы частям творений живых художников, чьи авторские права защищены.

И это именно то, что такие платформы, как YouTube, используют сегодня, например, в отношении музыки видео, которые люди загружают. Будет много ложных срабатываний и тому подобное. Так же, как это происходит с системами, которые сегодня использует YouTube. Это цена защиты прав живых творческих людей и художников.

Расширение этих механизмов для учета всех видов данных, а также данных, которые намного сложнее и многомернее, чем аудио, будет непростым делом. Но наверняка уже есть люди, работающие над этими вопросами.

Если мы снова посмотрим на YouTube, мы также увидим множество способов, которыми платформы могут работать с генеративным искусством ИИ, созданным на основе данных, не являющихся общественным достоянием (и следует ожидать, что платформы в конечном итоге смогут обнаружить это). , либо потому, что пользователь заявляет об этом, либо потому, что их автоматические системы обнаруживают это, либо потому, что технология, подобная той, которую предлагает стандарт CAI, помогает обнаруживать это).

Платформы могут добавлять рекламу к этим работам и делиться прибылью с затронутыми художниками. Или они могут заблокировать части или все эти работы в регионах, на которые распространяются авторские права, связанные с художником или творческой группой. Или они могут поместить их в отдельные специальные категории (вдали от творений, созданных людьми), пока эти сценарии уточняются. Мы также можем стать свидетелями большого разнообразия способов обращения с творениями, созданными системами людей + ИИ, основанными на общедоступных данных. Подводя итог, можно сказать, что как только системы обнаружения станут достаточно хорошими, появится несколько способов борьбы с этими серыми зонами.

Работа над этими системами обнаружения уже началась. Стандарт CAI с использованием умных метаданных и других инструментов скоро начнет внедряться компаниями и платформами по всему миру. Давайте кратко рассмотрим, что он делает.

Ответственный искусственный интеллект и инициатива по обеспечению подлинности контента (CAI)

Ряд компаний и групп уже исследуют и работают над созданием систем, которые можно использовать для борьбы с серыми зонами, а также с дезинформацией.

Одной из таких систем является проект Инициатива по обеспечению подлинности контента (CAI), начатый Adobe. CAI фактически был запущен в 2019 году, поскольку такие компании, как Adobe, предвидели потребность в стандарте, учитывающем возможность использования инструментов ИИ для создания дезинформации и других связанных с этим проблем.

По их словам, членами CAI являются: сообщество медиа- и технологических компаний, неправительственных организаций, ученых и других лиц, работающих над внедрением открытого отраслевого стандарта аутентичности контента и происхождения. (список действующих членов)

Группа, чьечленство бесплатное, предоставляетинструменты с открытым исходным кодом, которые позволяют отслеживать происхождение и атрибуцию цифрового контента на протяжении всего конвейера, от захвата до распространения.

Конечная цель состоит в том, чтобы обеспечить признание творческих людей за их работу и чтобы люди и платформы могли понимать, каковы истоки и методы, связанные с производством. содержания, с которым они имеют дело.

Главное, на что следует обратить внимание, это то, что стандарт CAI позволит людям узнать, использовался ли генеративный ИИ для создания определенного контента и каким образом.

То, что крупные компании работают над продвижением того, что они называют «Ответственный искусственный интеллект», — хороший знак. И что внедряются системы, которые позволят нам узнать, откуда берется каждый фрагмент цифрового контента, участвовал ли генеративный ИИ в его производстве или нет, какие авторские права закреплены за контентом и т. д.

Важно подчеркнуть, что для защиты конфиденциальности и безопасности фотожурналистов и других авторов у таких авторов есть возможность выбрать, сохранять ли авторство или оставаться анонимным при использовании этих систем.

Мир наблюдает. На недавней конференции Visual 1st (главная конференция по экосистеме обработки изображений, которая проходит в Сан-Франциско под руководством Ханса Хартмана и Алексис Джерард) большую часть разговора обсуждали генеративный ИИ. . Я имел удовольствие провести отличную дискуссию с Хансом и Алексис во время беседы у камина, открывавшей мероприятие.

Эксперты в области визуальных технологий, такие как Paul Melcher», проделывают огромную работу, знакомя аудиторию по всему миру с самыми последними достижениями в области генеративного искусственного интеллекта.

Преподаватели по всему миру, от таких организаций, как fast.ai, до Мастер-программ ИИ, YouTubers с сотнями тысяч подписчиков и экспертов по быстрому инжинирингу, документируют и объясняют каждую этап этой революции.

В области наборов данных мы также находим очень интересные компании и проекты, такие как datasetshop.com, основанные на vAIsual, пионеры в создании юридически чистых синтетические стоковые носители и создатели крупнейшего в мире лицензируемого биометрического набора реальных данных.

Опять же, это хорошая новость: мы наблюдаем рост популярности наборов данных, таких как «Ответственный ИИ» и «Юридически чистый».

И как человек, который очень активен в обеих областях, генеративном ИИ и искусстве, я попытался дать вам в этой статье общий обзор ряда точек зрения, связанных с этими динамичными ранними стадиями.

Давайте напомним себе, что это действительно ранние времена в быстро меняющемся контексте, поэтому давайте все будем как можно мягче друг с другом, поскольку мы делаем все возможное, чтобы найти правильный баланс между поощрением технологии, которая принесет много пользы человечеству, и необходимостью защиты прав творческих людей и художников.

Что ждет в будущем

Что касается грядущих времен, на мой взгляд, и простыми словами:

Художники останутся художниками. Как мы пытались объяснить в этой статье, быть художником или не быть художником не имеет ничего общего с конкретными инструментами или технологиями. Наоборот, это во многом связано с тем, как мы взаимодействуем с лифтами глубины, которые мы исследовали ранее.
Инженеры останутся инженерами
Исследователи останутся исследователями
Подскажите инженеры (новый сегмент), что будет, подскажите инженеры.
И художники и креативщики, профессиональные или нет(следующее в равной степени относится к профессиональным креативщикам или к тем, кто имеет естественную предрасположенность к тренировке своих творческих мускулов), которые включают генеративные Технология искусственного интеллекта и быстрая инженерия в их процессах, будут иметь больше шансов возглавить свои области и могут стать еще большими художниками и креативщиками, потому что они будут инкубировать свои идеи с помощью этих мощных костюмов железного человека (огромных подсознательных кастрюли), а также используют ту же технологию для ускорения своих творческих производственных процессов.
Наконец, ленивые люди останутся ленивыми.

Давайте сделаем это вместе

Искусственный интеллект определенно возвращается домой. Мы все должны объединить усилия, чтобы извлечь максимальную пользу из этой революции, чтобы принести человечеству максимальную пользу.

И чтобы завершить эту статью, в которой мы рассмотрели довольно сложные вопросы, давайте закончим на более легком тоне, с некоторыми музыкальными данностями этой замечательной технологии.

Ниже приведен небольшой фрагмент выступления сопрано Ковадонги Гонсалес Бернардо, исполняющего песню, написанную в результате совместной работы различных систем искусственного интеллекта и меня. Архитектура GPT использовалась для текста, музыкальные преобразователи для мелодии и аккордов, а VQGAN — для визуальных эффектов. (визуальные эффекты не появляются в этом небольшом фрагменте). Это был проект, предложенный и организованный Instituto of Inteligencia Artificial @ iia.es, где я несколько раз выступал с докладами.

Затем простая маленькая фортепианная импровизация, посвященная теме генеративного ИИ, возвращающегося домой и приближающегося к человеческому потенциалу.

Наконец, немного путешествия во времени. Можем ли мы все понять, что то, что мы переживаем сегодня с генеративным ИИ, вероятно, было бы истолковано как чудо всего несколько десятилетий назад? Давайте отправимся в прошлое в 1950 год в Испанию :)

Будьте все здоровы, и, прежде всего, оставайтесь людьми.

Эпилог

Что касается моей последней фразы: «оставайтесь людьми».

Иногда люди спрашивают меня: что, по моему мнению, произойдет, когда ИИ превзойдет возможности системы 2 (рассуждения, планирование и т. д.), скажем, через 30, 40 или 50 лет?

Система 1 и 2 — это разные типы способов мышления в нашем сознании.

Система 1 относится к быстрым, подсознательным, одновременным, интуитивным процессам, и это область, в которой ИИ достигает сверхчеловеческих возможностей.

Система 2 относится к медленному, логическому, рациональному, систематическому, точному и последовательному мышлению. И освоение этого второго режима все еще далеко за пределами наших систем искусственного интеллекта. (см. книгу Даниэля Канемана Думай быстро и медленно», где подробно рассказывается о мышлении по системе 1 и по системе 2).

Обсуждение возможностей Системы 2 в связи с ИИ сейчас и в будущем заняло бы целую статью такого же размера и большего размера. Так что оставляю это на другой раз. Вернемся к вопросу, поставленному в начале эпилога.

Обычно я отвечаю, что через несколько десятилетий этот вопрос может потерять смысл. Почему нет?

Потому что сегодня существует разделение между ИИ и людьми. ИИ есть. Мы здесь.

Но через несколько десятилетий этого разделения больше не будет. Подумайте, над чем работает компания Нейралинк уже сейчас. Это только самое начало того, что предстоит.

Через несколько десятилетий наши технологии, включая ИИ, и наша биология во многом сольются.

И тогда новый вопрос может звучать так: «Куда мы пойдем дальше, теперь, когда мы вместе?»

Спасибо за чтение.