Обучение с подкреплением как методология обучения этике ИИ

Один из самых больших вопросов при рассмотрении этики искусственного интеллекта (ИИ) заключается в том, как реализовать что-то столь сложное и несогласованное в машинах, которые отличаются высокой точностью. Некоторые говорят, что это невозможно. Этика — это не техническое предприятие, здесь нет расчетов или эмпирических правил, на которые мы могли бы положиться, чтобы быть этичными. Строго говоря, этический алгоритм — это противоречие в терминах. (Вачнадзе, 2021)

Отказ от обучения этике для ИИ из-за того, что он представляет собой множество технических проблем, не поможет нашему обществу, когда технологии развиваются независимо, а этические проблемы продолжают возникать.

Итак, мы обратимся к восходящему подходу к обучению с подкреплением как к многообещающему пути изучения того, как продвигаться вперед к ИИ для положительного социального воздействия.

Что такое обучение с подкреплением и откуда оно взялось?

Обучение с подкреплением (RL) — это метод машинного обучения, который позволяет агенту учиться в интерактивной среде путем проб и ошибок, используя обратную связь, основанную на его собственных действиях и опыте. (Бхатт, 2018)

Обучение с подкреплением отличается от других форм обучения, основанных на нисходящих правилах. Скорее, эта система учится по ходу дела, совершая много ошибок, но учась на них и адаптируясь, ощущая окружающую среду. Он обучается в смоделированной среде с использованием систем вознаграждения с положительной или отрицательной обратной связью, поэтому агент может пробовать множество различных действий в своей среде без реальных последствий, пока не добьется нужного результата.

Мы видим, что RL обычно используется в алгоритмах обучения играм в такие игры, как Alpha Go и шахматы. Вначале RL изучали на животных, а также на первых компьютерах.

В истории обучения с подкреплением есть две основные нити, длинные и насыщенные, которые развивались независимо друг от друга, прежде чем переплелись в современном обучении с подкреплением. Одна тема касается обучения методом проб и ошибок, которое началось в психологии обучения животных. Эта нить проходит через некоторые из самых ранних работ в области искусственного интеллекта и привела к возрождению обучения с подкреплением в начале 1980-х годов. Другая тема касается проблемы оптимального управленияи ее решения с помощью функций значений и динамического программирования. По большей части эта ветка не предполагала обучения. Хотя эти два потока были в значительной степени независимыми, исключения вращаются вокруг третьего, менее отчетливого потока, касающегося методов временной разницы. . . Все три направления объединились в конце 1980-х, чтобы создать современную область обучения с подкреплением (Саттон и Барто, 2015).

Интересно отметить, что эта форма обучения частично возникла при дрессировке животных, а также часто используется для обучения человеческих детей. Это то, что существует и развивается уже много десятилетий.

Как обучение с подкреплением используется для машинного обучения?

Теперь давайте подробнее рассмотрим этот восходящий подход к программированию и то, как он работает для искусственного интеллекта. Вместо явных правил работы в RL используется целевой подход, при котором «правило возникает как временный побочный эффект эффективно решенной проблемы. Это же самое правило может быть отброшено в любой момент позже, если оно перестанет быть эффективным. Цель моделирования RL состоит в том, чтобы помочь A.I. имитировать живой организм в максимально возможной степени, тем самым компенсируя то, что мы обычно считали основным недостатком машинного обучения: невозможность машинного обучения, а это как раз то, что RL должен делать. быть." (Вачнадзе, 2021)

Этот стиль обучения, который выбрасывает книгу правил в окно, может быть многообещающим для чего-то вроде этики, где правила не слишком последовательны или даже не согласованы. Этика в большей степени зависит от ситуации, поэтому преподавания общего правила не всегда достаточно. Может ли РЛ быть ответом?

Задачи обучения с подкреплением включают в себя изучение того, что делать — как сопоставлять ситуации с действиями — чтобымаксимизировать числовой сигнал вознаграждения. . . Эти трихарактеристики — замкнутость по существу, отсутствие прямых указаний относительно того, какие действия следует предпринять и где >последствия действий, включая сигналы вознаграждения, разыгрывающиеся в течение длительных периодов времени — это три наиболее важных отличительных признака проблем обучения с подкреплением. (Саттон и Барто, 2015)

Превращение этики в числовое вознаграждение может создать много проблем, но может быть обнадеживающим фактором для программирования этики в системах ИИ. Далее авторы говорят, что . . . основная идея состоит в том, чтобы просто зафиксировать наиболее важные аспекты реальной проблемы, с которой сталкивается обучающийся агент, взаимодействующий со своей средой для достижения цели. Ясно, что такой агент должен иметь возможность ощущать состояние окружающей среды в некоторой степени и должен иметь возможность предпринимать действия, влияющие на состояние. (Саттон и Барто, 2015)

Существует много типов машинного обучения, и может быть многообещающе рассмотреть возможность использования более одного типа в сочетании с RL, чтобы подойти к вопросу этики. В одной статье использовалось RL вместе с обратным обучением с подкреплением (IRL). IRL учится на человеческом поведении, но ограничивается изучением того, что люди делают в сети, поэтому получает лишь частичную картину реального человеческого поведения. Тем не менее, это в сочетании с RL может скрыть некоторые белые пятна, и его стоит протестировать.

Можно ли использовать метод обучения с подкреплением в этике для ИИ?

Один из способов, с помощью которого RL может работать с этической точки зрения и избегать ловушек, — это использование систем, которые держат человека в курсе событий. Интерактивное обучениепредставляет собой дополнительный подход, направленный на преодоление этих ограничений путем вовлечения учителя-человека в процесс обучения. . (Нажар и Четуани, 2021)

Держать человека в курсе событий имеет решающее значение для многих вопросов, в том числе связанных с прозрачностью. Человека можно рассматривать как учителя или инструктора, однако альтернативный способ привлечь человека — это критик.

Архитектура актор-критик представляет собой гибридный подход между методами, основанными на ценностях, и методами, основанными на политике, путем вычисления как политики (актер), так и функции ценности (критик) (Barto et al., 1983). »). Актер может быть представлен как параметризованное распределение softmax. . . Критик вычисляет функцию ценности, которая используется для оценки актера». (Нажар и Четуани, 2021)

Кроме того, мне нравится подход моральной неопределенности, потому что никогда не существует одного ответа или решения на этический вопрос, а признание неопределенности оставляет открытым вопрос, который может привести нас к ответам, которые могут быть сложной и децентрализованной. Этот путь мог бы создать систему, которая может адаптироваться к этическим соображениям всех участников.

Хотя этических агентов можно обучать, вознаграждая за правильное поведение в соответствии с определенной теорией морали (например, утилитаризмом), остаются широко распространенные разногласия по поводу природы морали. Признавая такое несогласие, недавняя работа в области философии морали предлагает, чтобы этическое поведение требовало действий в условиях моральной неопределенности, т. е. принятия во внимание при действии того факта, что доверие человека расколото между несколькими правдоподобными этическими теориями (Ecoffet and Lehman ,)

Необходимо учитывать моральную неопределенность просто потому, что этика — это область огромной неопределенности, а не решаемая математическая задача с предсказуемыми результатами.

Существует множество ограничений и множество важных соображений, которые необходимо учитывать на этом пути. На этот вопрос нет простого ответа, скорее есть много ответов, которые зависят от множества факторов. Может ли программа RL в конечном итоге научиться вычислять все различные этические возможности?

Основная цель этих систем — выполнять действия, направленные на улучшение жизни жителей нашей планеты. Поэтому важно, чтобы эти агенты принимали решения, учитывающие желания, цели и предпочтения других людей в мире, одновременно узнавая об этих предпочтениях. (Абель и др., 2016)

Ограничения обучения с подкреплением для этического ИИ

Есть много ограничений, которые следует учитывать, и некоторые скажут, что обучение с подкреплением не является правдоподобным ответом на этический ИИ.

В своей недавней книге «Суперинтеллект Бостром (2014) выступает против перспективы использования обучения с подкреплением в качестве основы для этического искусственного агента. Его основное утверждение состоит в том, что достаточно разумный агент, действующий так, чтобы максимизировать вознаграждение в реальном мире, будет эффективно мошенничать, изменяя свой сигнал вознаграждения таким образом, что тривиально максимизирует вознаграждение. Однако этот аргумент применим только к очень специфической форме обучения с подкреплением: той, в которой агент не знает функцию вознаграждения и вместо этого цель которого состоит в том, чтобы максимизировать наблюдение за событиями вознаграждения». (Абель и др., 2016)

Это может потребовать много экспериментов. Важно знать ограничения, оставаясь при этом открытым для удивления. Нас очень беспокоит неизвестность ИИ: действительно ли он соответствует нашим ценностям? Только путем экспериментов мы можем узнать.

Возможно, нам следует рассмотреть концепцию предоставления «безопасной среды обучения для системы RL, в которой она может учиться, где моделируются модели других систем и взаимодействия с окружающей средой, чтобы Никакой вред не может быть причинен людям, имуществу или окружающей среде. . . Однако это часто осложняется проблемами, связанными с разрывом между смоделированной и реальной средой, включая проблемы, связанные с различными социальными/человеческими ценностями». (Брэгг и Хабли, 2018)

Конечно, потом взять эти эксперименты из виртуальной среды и использовать их в реальном мире непросто, и многие считают, что это недостижимо.

В реальном мире полное осознание состояния невозможно, особенно когда желания, убеждения и другое когнитивное содержание людей являются критическим компонентом процесса принятия решений. (Абель и др., 2016)

Что я думаю, как антрополог? Я оглядываюсь и вижу, что мы живем во время больших социальных перемен во многих сферах. Этический ИИ не только возможен, но и абсолютно необходим. Определенно стоит изучить обучение с подкреплением и другие гибридные модели, включающие RL. Акцент на наградах меня немного беспокоит, поскольку цель «награды» не всегда является самой этичной. Меня многое смущает в терминологии, однако я не думаю, что ИИ изначально обречен. Это никуда не денется, поэтому нам нужно работать вместе, чтобы сделать это этичным.

Вы можете быть в курсе событий с Accel.AI; семинары, исследования и инициативы социального воздействия через наш веб-сайт, список рассылки, группу встреч, Твиттер и Фейсбук.

Присоединяйтесь к нам в реализации инициатив #AI for #SocialImpact по всему миру!

Если вам понравилось это читать, вы можете внести свой вклад в хорошее настроение (и помочь большему количеству людей открыть для себя этот пост и наше сообщество), нажав 👏 ниже — это много значит!

Цитаты

Абель, Д., МакГлашан, Дж., и Литтман, М.Л. (2016). Обучение с подкреплением как основа для этичного принятия решений. aaai.org. Получено 20 декабря 2021 г. с https://www.aaai.org/ocs/index.php/WS/AAAIW16/paper/viewFile/12582/12346.

Бхатт, С. (2019, 19 апреля). Обучение с подкреплением 101. Середина. Получено 20 декабря 2021 г. с https://towardsdatascience.com/reinforcement-learning-101-e24b50e1d292.

Брэгг, Дж., и Хабли, И. (2018). Что приемлемо безопасно для обучения с подкреплением? whiterose.ac.uk. Получено 20 декабря 2021 г. с https://eprints.whiterose.ac.uk/133489/1/RL_paper_5.pdf.

Гонфалоньери, А. (31 декабря 2018 г.). Обучение с обратным подкреплением. Середина. Получено 20 декабря 2021 г. с https://towardsdatascience.com/inverse-reinforcement-learning-6453b7cdc90d.

Экоффет, А., и Леман, Дж. (2021). Обучение с подкреплением в условиях моральной неопределенности. arxiv.org. Получено 20 декабря 2021 г. с https://arxiv.org/pdf/2006.04734v3.pdf.

Наджар, А., и Четуани, М. (2021, 1 января). Обучение с подкреплением с советами людей: опрос. Границы. Получено 20 декабря 2021 г. с https://www.frontiersin.org/articles/10.3389/frobt.2021.584075/full.

Нутигатту Р., Бунеффуф Д., Маттеи Н., Чандра Р., Мадан П., Варшни К.Р., Кэмпбелл М., Сингх М. и Росси Ф. (2020). Обучение агентов ИИ этическим ценностям с помощью обучения с подкреплением и оркестровки политик. Ритеш Нутигатту — Публикации. Получено 20 декабря 2021 г. с https://www.cs.cmu.edu/~rnoothig/publications.html.

Саттон, Р. С., и Барто, А. Г. (2015). Обучение с подкреплением: введение — Стэнфордский университет. http://web.stanford.edu/. Получено 20 декабря 2021 г. с http://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf.

Вачнадзе Г. (2021, 7 февраля). Обучение с подкреплением: программирование снизу вверх для этических машин. Мартен Каас. Середина. Получено 20 декабря 2021 г. с https://medium.com/nerd-for-tech/reinforcement-learning-bottom-up-programming-for-ethical-machines-marten-kaas-ca383612c778.