В этом блоге я расскажу о таких понятиях, как:
Марковская цепь или марковский процесс
То, что мы наблюдаем, называется состояниями, и система может переключаться между состояниями в соответствии с некоторыми правилами динамики.
Все возможные состояния системы образуют набор, называемый пространством состояний. Наши наблюдения образуют последовательность состояний или цепочку. Последовательность наблюдений во времени образует цепочку состояний, таких как [солнечный, солнечный, дождливый, дождливый,…] и называется историей (1) .
Марковское свойство и матрица переходов
Свойство Маркова (MP) означает, что будущее динамики любого состояния должно зависеть только от этого состояния. MP требует, чтобы состояния системы были отличимыми друг от друга и уникальными.
Если наша модель более сложная и нам нужно ее расширить, это позволит уловить больше зависимостей в модели за счет большего пространства состояний.
Из рисунка 2 видно, что ребра в цепи Маркова представляют собой вероятности, которые выражаются в матрице перехода. Матрица перехода - это квадратная матрица размера NxN, где N - количество состояний в нашей модели. Эта матрица определяет динамику системы. Если вероятность перехода равна 0, мы не рисуем границу (нет вероятности перейти из одного состояния в другое) (1).
Мы также можем математически определить цепь Маркова на основе состояний и матрицы переходов.
Награда
Сигнал вознаграждения определяет цель задачи обучения с подкреплением. Цель агента - максимизировать общее вознаграждение, которое он получает в долгосрочной перспективе. Он определяет, какие события хороши, а какие плохи для агента (4).
ожидаемое совокупное вознаграждение или G - это сумма сигнала вознаграждения и гамма (γ) или фактора скидки. Гамма (γ) - это гиперпараметр, который необходимо настроить для получения оптимальных результатов. Эти значения находятся в диапазоне от 0,9 до 0,99. В то время как меньшая ошибка поощряет краткосрочное мышление, более высокая ценность подчеркивает долгосрочные результаты (5).
Если мы добавим вознаграждение и коэффициент скидки к нашему определению цепи Маркова, мы получим процесс вознаграждения Маркова (MRP).
Значение Функция
Функция значения - или функция состояний - оценивает, насколько хорошо для агента находиться в данном состоянии (или насколько хорошо выполнять данное действие в данном состоянии). Функции ценности определяются с учетом конкретных способов действий, называемых политиками (4).
Уравнение Беллмана
Уравнение Беллмана (BE) - это линейная функция, которая позволяет разложить функцию ценности состояния как сумму немедленного вознаграждения [Rt + 1] и дисконтированной стоимости состояния наследника [γv (St + 1)]. Также это можно выразить с помощью матричной записи (3).
Марковский процесс принятия решений
Почти все проблемы обучения с подкреплением можно формализовать как марковский процесс принятия решений (MDP). Каждое состояние в MDP является марковским или удовлетворяет марковскому свойству, а среда полностью наблюдаема (1) (3).
Фреймворк MDP - это значительная абстракция проблемы целенаправленного обучения от взаимодействия. Каждое целенаправленное поведение можно свести к трем сигналам между агентом и окружающей средой: действия, которые представляют выбор, сделанный агентом; состояния, которые являются выборами сделано агентом; и вознаграждения, определяющие цель агента (4).
Политика
Политика - это набор правил, контролирующих поведение агента. Он определяется как распределение вероятностей действий для каждого возможного состояния. Внесение случайности в поведение агента определяется как вероятность. Если наша политика фиксирована и не меняется, то наша MDP становится MRP (1). Кратко можно сказать, что политика - это решение проблемы MDP (5).
Наконец, мы можем определить оптимальную политику π * как политику, которая максимизирует ожидаемое вознаграждение (полученное или ожидаемое получить в течение всей жизни).
Первую часть этой серии сообщений вы можете посетить здесь Часть 1
использованная литература
- Лапан, Максим. Практическое занятие по глубокому обучению с подкреплением (2018 г.). Http://bit.ly/2wosxGD
- Раваль, Сирадж. Введение (Move 37) Бесплатный курс обучения глубокому усилению (2018) http://bit.ly/2CDyrJB
- Серебро, Дэвид. Курс DeepMind по обучению с подкреплением (2015 г.), класс 2. Youtube видео: http://bit.ly/2CS4k1d и слайды http://bit.ly/2CDFcer
- Саттон, Ричард и Барто, Эндрю. Обучение с подкреплением, 2-е издание, черновик (2018) http://bit.ly/2CLW5Dv
- Раваль, Сирадж. Move 37 Бесплатный курс глубокого обучения с подкреплением http://bit.ly/2x4kqhY