Я был связан с Data Science около 2 лет. И одно могу гарантировать, так это то, что он всегда преподносит вам сюрпризы.

Обучение с подкреплением - это один из тех сюрпризов, которые вы узнаете после того, как закончите с контролируемым (все эти KNN, SVM, лесные вещи) и неконтролируемым обучением (K-средние, иерархическая кластеризация и другие).

Возьмем пример:

Предположим, мы хотим, чтобы Робо водил машину. Чтобы переехать на автомобиле из одной точки в другую, необходимо выполнить ряд шагов.

Откройте дверь, запустите двигатель, переключайте передачи, время от времени ускоряйтесь, время от времени тормозите и т. Д. И т. Д. И т. Д.

Здесь нам нужна методология, которая поможет нам узнать наиболее оптимальные последовательные шаги, которые помогут нам достичь нашей цели.

Обучение с подкреплением помогает нам выучить оптимальную последовательность шагов для достижения нашей конечной цели (достижения нашей цели) методом проб и ошибок.

Перейдем к базовой терминологии и заимствуем ссылки из приведенного выше примера с приводом автомобиля:

  1. Среда: это место, где присутствует вся установка. Для нас это могут быть автомобильные и городские дороги, по которым ездит наш Робо.

2. Агент: Агент взаимодействует с Окружающей средой. Робо - наш агент в примере с автомобилем.

3. Действие: Действия были выполнены агентом (Робо) в окружающей среде (машине). Применение тормозов - это действие.

4. Состояние: при выполнении действия (включении тормозов) наблюдаются изменения. Движущийся автомобиль (Состояние_1) меняется на остановленный автомобиль (Состояние_2).

Начальная точка - это начальное состояние, а конечная точка, в которой достигается цель, ИЛИ вы не можете двигаться вперед, - это конечное состояние.

5. Награда: награда - это мгновенный приз, который выдается за выполнение действия. Эта награда может быть как положительной (когда вы достигнете конечного состояния, в нашем случае - конечной точки назначения), так и отрицательной (вы еще не достигли конечной точки).

Система вознаграждения также может быть изменена в соответствии с системой. Если вы хотите давать небольшие вознаграждения, когда вы приближаетесь к пункту назначения, большее вознаграждение при достижении пункта назначения и отсутствие вознаграждения / отрицательного вознаграждения при удалении от пункта назначения, это ваше желание.

6. Политика: политика определяет способ поведения агента обучения в определенный момент времени. Это правило / алгоритм, которым мы следуем, чтобы выбрать следующий шаг в любом состоянии S. E-Greedy можно взять в качестве примера политики (последний пункт)

7. Эпизод: весь цикл, в котором агент (Робо) запускается и каким-то образом, совершая множество действий и меняя состояния, достигает конечного состояния, называется одним эпизодом. Чтобы найти оптимальный путь, многие такие эпизоды повторяются снова и снова. Это похоже на эпохи глубокого обучения.

RL можно разделить на две широкие категории в зависимости от того, заканчивается ли задача когда-либо (например, Ludo или поездка к месту назначения), то есть эпизодическая или непрерывная навсегда (например, плавание туда-сюда по реке), то есть не имеет конечного состояния

8. Эксплуатация: когда мы предпринимаем наилучшее действие (действие с наибольшим вознаграждением, наиболее известное модели на данном этапе обучения) с учетом состояния, мы называем это Эксплуатацией.

Пример: Предположим, мы на дороге_A (State_1). Робо знает, как срезать путь через дорогу, ROAD_B справа. Следовательно, повернув направо (действие), мы доберемся до пункта назначения быстрее, чем обычно.

9. Исследуйте. Когда мы случайным образом выбираем действие (без учета вознаграждений) в зависимости от состояния, мы называем это исследованием.

Почему требуется изучение?

Возможно, существует еще более короткий маршрут, чтобы добраться до пункта назначения, неизвестного агенту. Если каждый раз мы воспользуемся известным сокращенным путем, мы не сможем его обнаружить. Следовательно, компромисс Exploit-Explore существует.

10. Обучение с подкреплением без сохранения состояния: Иногда в некоторых ситуациях постановка задачи не требует каких-либо состояний (любой последовательности событий) для достижения цели. В таких случаях понятие состояний опускается. Лучший пример - проблема Многорукий бандит.

11. Обучение временной разнице (TD): это подход к обучению тому, как предсказать количество, которое зависит от будущих значений данного сигнала.

В RL необходимо учитывать награды из будущего, когда нам нужно создать надежную политику, чтобы убедиться, выполняя это действие в заданном состоянии, сможем ли мы достичь конечного пункта назначения или нет. Следовательно, TD-обучение является неотъемлемой частью обучения с подкреплением.

Пример: когда робот применяет тормоза (действие), движущаяся машина (состояние) останавливается. Следовательно, мы не можем добраться до места назначения. Мы бы хотели, чтобы наша система не повторяла таких действий, которые не могут привести нас к конечной цели. Нам нужно предсказать это, используя будущие награды. В таких случаях обучение TD помогает нам предсказать правильные действия для будущих состояний.

12. Марковское свойство: Марковское свойство или свойство без памяти утверждает, что будущее состояние зависит только от текущего состояния, а не от прошлых состояний агента.

Пример: при бесконечно подбрасывании монеты, даже если у вас было 3 орла подряд, вероятность выпадения решки или орла остается 0,5 независимо от того, каков был результат в прошлом.

13. Марковский процесс: Марковский процесс - это в основном процесс, имеющий последовательность случайных состояний, обладающих марковским свойством. Следует отметить, что марковский процесс имеет бесконечное количество состояний.

14. Цепь Маркова: он похож на процесс Маркова, но с конечным числом состояний.

Ниже приведен хороший пример.

Следует отметить, что он имеет конечное количество состояний (7). Кроме того, будущее состояние (Sleep) зависит только от Class_2 и Pass, а не от других состояний среды (Pub, Class_1, Class_3, Facebook), показывающих свойство Маркова.

15. Марковский процесс принятия решений: MDP - это среда, в которой все государства обязаны марковской собственностью.

Тогда чем он отличается от цепи Маркова и процесса Маркова?

Эта среда имеет некоторые специальные свойства (S, A, P, R, 𝛾) где

  • S - это набор конечных состояний (как в примере выше)
  • A - это набор действий, которые можно предпринять
  • P - вероятность перехода из одного состояния в другое.
  • R представляет собой вознаграждение за переход из одного состояния в другое.
  • 𝛾 - коэффициент скидки.

16. Коэффициент дисконтирования (𝛾): это постоянная дробь от 0 до 1, которая помогает нам установить баланс в отношении того, какую роль будущие вознаграждения должны играть роль в определении политики в данном состоянии, когда предпринимается действие.

Мы должны понимать, что в Reinforcement основная цель состоит в том, чтобы максимизировать общее накопленное вознаграждение от Времени T (когда действие предпринято) до T + K (когда достигнуто конечное состояние; TD Learning). Но вознаграждения, заранее предполагаемые из будущих состояний, не должны считается таковым из-за наличия неопределенности и не должен иметь большого влияния на принятие текущих решений. Следовательно, всякий раз, когда мы рассматриваем будущие вознаграждения для обновления политики, они дисконтируются с использованием коэффициента дисконтирования. Подробнее можно изучить здесь.

17. Эпсилон-жадный подход: это методология принятия решения о действиях, которые необходимо предпринять для данного состояния. Здесь эпсилон - это постоянная дробь от 0 до 1. Такой подход помогает нам поддерживать компромисс между исследованием и использованием ресурсов. Происходит следующее: генерируется случайное число, если оно падает ниже эпсилон, выполняется случайное действие, иначе выполняется жадное действие для данного состояния.

18. Функции значения. Это значение / состояние, которое мы постоянно обновляем, чтобы узнать, насколько мы должны предпочитать текущее состояние. Это «предпочтение» обычно делается путем оценки будущего вознаграждения, которое мы могли бы получить, если бы присутствовали в этом состоянии.

Узнайте больше об этом ниже !!