Выводы по градиенту политики и обучение, ориентированное на любопытство

1. Что такое обучение с подкреплением?

Обучение с подкреплением - это область машинного обучения, которая произвела много важных достижений в области ИИ, таких как Alpha Go и OpenAI Five. Игра в го считалась довольно сложной для компьютеров, чтобы учиться и играть на том же уровне, что и профессиональные игроки-люди. AlphaGo важна как первая машина, которая превзошла лучших игроков в го. Важно отметить, что и Alpha Go, и OpenAI Five используют алгоритмы обучения с подкреплением, чтобы научиться играть в свои игры. Одна из основных целей обучения с подкреплением - создание программных агентов, которые учатся максимизировать свое вознаграждение в определенных средах. В настоящее время эти среды, как правило, представляют собой видеоигры, в которых довольно легко получить награду (например, счет). Эти виртуальные среды можно сравнить с реальным миром, где вознаграждения определить труднее. OpenAI Gym - одна из самых популярных сред для студентов и исследователей для изучения и изучения обучения с подкреплением. В этом сообщении блога мы быстро рассмотрим некоторые основные концепции, общие для многих проблем RL.

2. Каков компромисс между разведкой и разработкой?

В области RL, компромисс между исследованием и эксплуатацией - это компромисс, на который агенты идут, когда они выбирают либо исследовать новые действия и состояния, либо исследовать известные действия и состояния, чтобы максимизировать свою награду. Агент, который только «исследует» мир, может узнать о нем, но никогда не использует это знание для максимизации своего вознаграждения. Напротив, агент, который только «эксплуатирует» мир, может достичь локальных максимумов, но не сможет достичь глобального максимума. Агент, который использует только свое окружение, не пытается узнать что-то новое о мире, поэтому он не может достичь глобального максимума потенциального вознаграждения. И в искусственной среде, и в реальном мире оптимальная ценность компромисса как для программных агентов, так и для людей находится где-то посередине.

3. Алгоритмы градиента политики

Ванильный алгоритм градиента политики (REINFORCE) был представлен в статье Простые статистические алгоритмы следования градиентам для обучения с подкреплением коннекционистов в 1992 году. Основная идея этого алгоритма состоит в том, чтобы запустить политику на некоторое время и посмотреть, какие действия приводят к высокие награды и какие действия приводят к низким вознаграждениям. Далее алгоритм пытается увеличить вероятность действий, которые привели к более высокому вознаграждению. Политика - это отображение состояния на распределение вероятностей действий. Градиенты политики - это методы в соответствии с политикой, означающие, что агент учится только на действиях, которые алгоритм решает предпринять. Градиенты политики часто сравнивают с методами на основе значений, такими как Q-обучение. Q-обучение - это метод вне политики, означающий, что он может обновлять параметры алгоритма, используя сохраненную и сохраненную информацию о ранее предпринятых действиях.

4. Политическая сеть

В алгоритме градиента политики политика представляет собой нейронную сеть, которая обучается аналогично контролируемому обучению. В классической задаче контролируемого обучения нам обычно нужно создать помеченный набор данных из положительных и отрицательных примеров. Например, классификатор "собака против кошки" может содержать 100 примеров собак и 100 примеров кошек. В среде RL обозначенная достоверная информация исходит из окончательной награды в среде. Поскольку игра часто состоит из множества временных шагов, метки истинности зашумлены и часто не будут правильными. Проблема присвоения кредита (минимизация этого шума) - это проблема определения точного набора действий, которые привели к вознаграждению. Однако после многих эпизодов сеть политик учится отдавать предпочтение действиям, которые приводят к более высокому вознаграждению, и избегать действий, ведущих к более низкому вознаграждению.

5. Что такое обучение, движимое любопытством?

Как вы понимаете, исследование мира или окружающей среды очень важно для агентов RL. В задачах, где награды скудны, агенты могут изо всех сил пытаться осмысленно исследовать мир. Алгоритм обучения, основанного на любопытстве, основан на алгоритме градиента политики для исследования мира с помощью механизма любопытства.

Функция внутреннего вознаграждения является мерой ошибки прогноза. Учитывая состояние в момент времени t, насколько хорошо агент может предсказать состояние в момент времени (t + 1). Ошибка измеряется с использованием нормы L2 прогнозируемого вектора признаков и фактического вектора признаков.

Модуль внутреннего любопытства состоит из прямой модели и обратной модели. Прямая модель предсказывает представление признаков следующего состояния с учетом предыдущего состояния и предыдущего действия. Обратная модель предсказывает следующее действие с учетом предыдущего состояния и следующего состояния.

Сводя к минимуму эти ошибки прогнозирования, агент учится исследовать мир, используя механизм любопытства, который, как правило, важен для агентов RL, чтобы преуспеть в их среде.

6. Выводы

Обучение с подкреплением становится все более важной областью, изучающей проблему обучения программных агентов максимальному увеличению их потенциального вознаграждения в среде. Алгоритм градиента политики - важный базовый компонент многих более продвинутых алгоритмов RL. Компромисс между разведкой и разработкой также является важным фактором для рассмотрения многих алгоритмов. Чтобы помочь агентам лучше исследовать свое окружение, обучение на основе любопытства - это один из механизмов, который многие алгоритмы считают полезным для успешного изучения своего окружения. В целом, мы рассмотрели некоторые важные базовые концепции RL, включая алгоритм градиента политики и компромисс между разведкой и эксплуатацией.