Глубокое обучение с подкреплением, часть 2: Марковский процесс принятия решений

В этом блоге я расскажу о таких понятиях, как:

Марковская цепь или марковский процесс

То, что мы наблюдаем, называется состояниями, и система может переключаться между состояниями в соответствии с некоторыми правилами динамики.

Все возможные состояния системы образуют набор, называемый пространством состояний. Наши наблюдения образуют последовательность состояний или цепочку. Последовательность наблюдений во времени образует цепочку состояний, таких как [солнечный, солнечный, дождливый, дождливый,…] и называется историей (1) .

Марковское свойство и матрица переходов

Свойство Маркова (MP) означает, что будущее динамики любого состояния должно зависеть только от этого состояния. MP требует, чтобы состояния системы были отличимыми друг от друга и уникальными.

Если наша модель более сложная и нам нужно ее расширить, это позволит уловить больше зависимостей в модели за счет большего пространства состояний.

Из рисунка 2 видно, что ребра в цепи Маркова представляют собой вероятности, которые выражаются в матрице перехода. Матрица перехода - это квадратная матрица размера NxN, где N - количество состояний в нашей модели. Эта матрица определяет динамику системы. Если вероятность перехода равна 0, мы не рисуем границу (нет вероятности перейти из одного состояния в другое) (1).

Мы также можем математически определить цепь Маркова на основе состояний и матрицы переходов.

Награда

Сигнал вознаграждения определяет цель задачи обучения с подкреплением. Цель агента - максимизировать общее вознаграждение, которое он получает в долгосрочной перспективе. Он определяет, какие события хороши, а какие плохи для агента (4).

ожидаемое совокупное вознаграждение или G - это сумма сигнала вознаграждения и гамма (γ) или фактора скидки. Гамма (γ) - это гиперпараметр, который необходимо настроить для получения оптимальных результатов. Эти значения находятся в диапазоне от 0,9 до 0,99. В то время как меньшая ошибка поощряет краткосрочное мышление, более высокая ценность подчеркивает долгосрочные результаты (5).

Если мы добавим вознаграждение и коэффициент скидки к нашему определению цепи Маркова, мы получим процесс вознаграждения Маркова (MRP).

Значение Функция

Функция значения - или функция состояний - оценивает, насколько хорошо для агента находиться в данном состоянии (или насколько хорошо выполнять данное действие в данном состоянии). Функции ценности определяются с учетом конкретных способов действий, называемых политиками (4).

Уравнение Беллмана

Уравнение Беллмана (BE) - это линейная функция, которая позволяет разложить функцию ценности состояния как сумму немедленного вознаграждения [Rt + 1] и дисконтированной стоимости состояния наследника [γv (St + 1)]. Также это можно выразить с помощью матричной записи (3).

Марковский процесс принятия решений

Почти все проблемы обучения с подкреплением можно формализовать как марковский процесс принятия решений (MDP). Каждое состояние в MDP является марковским или удовлетворяет марковскому свойству, а среда полностью наблюдаема (1) (3).

Фреймворк MDP - это значительная абстракция проблемы целенаправленного обучения от взаимодействия. Каждое целенаправленное поведение можно свести к трем сигналам между агентом и окружающей средой: действия, которые представляют выбор, сделанный агентом; состояния, которые являются выборами сделано агентом; и вознаграждения, определяющие цель агента (4).

Политика

Политика - это набор правил, контролирующих поведение агента. Он определяется как распределение вероятностей действий для каждого возможного состояния. Внесение случайности в поведение агента определяется как вероятность. Если наша политика фиксирована и не меняется, то наша MDP становится MRP (1). Кратко можно сказать, что политика - это решение проблемы MDP (5).

Наконец, мы можем определить оптимальную политику π * как политику, которая максимизирует ожидаемое вознаграждение (полученное или ожидаемое получить в течение всей жизни).

Первую часть этой серии сообщений вы можете посетить здесь Часть 1

использованная литература

Лапан, Максим. Практическое занятие по глубокому обучению с подкреплением (2018 г.). Http://bit.ly/2wosxGD
Раваль, Сирадж. Введение (Move 37) Бесплатный курс обучения глубокому усилению (2018) http://bit.ly/2CDyrJB
Серебро, Дэвид. Курс DeepMind по обучению с подкреплением (2015 г.), класс 2. Youtube видео: http://bit.ly/2CS4k1d и слайды http://bit.ly/2CDFcer
Саттон, Ричард и Барто, Эндрю. Обучение с подкреплением, 2-е издание, черновик (2018) http://bit.ly/2CLW5Dv
Раваль, Сирадж. Move 37 Бесплатный курс глубокого обучения с подкреплением http://bit.ly/2x4kqhY