Зачем вводить свойство Маркова в обучение с подкреплением?

Как новичок в глубоком обучении с подкреплением, я не понимаю, почему мы должны использовать марковский процесс в обучении с подкреплением и какие преимущества он дает обучению с подкреплением. Кроме того, марковский процесс требует, чтобы при известном условии настоящее не имело ничего общего с будущим. Почему некоторые алгоритмы глубокого обучения с подкреплением могут использовать RNN и LSTM? Нарушает ли это предположение о марковском процессе?


person 曹子轩    schedule 23.12.2020    source источник


Ответы (2)


Свойство Маркова используется для математических расчетов в процессе оптимизации. Однако имейте в виду, что это гораздо более широко применимо, чем вы думаете. Например, если в определенной настольной игре вам нужно знать три последних состояния игры, это может показаться нарушением марковского свойства; однако, если вы просто переопределите свое состояние как объединение трех последних состояний, вы снова вернетесь в MDP.

person Federico Malerba    schedule 01.01.2021

Это предположение говорит о том, что текущее состояние дает всю необходимую информацию обо всех аспектах прошлой итерации агент-среда, которая имеет значение для будущего системы. Это важное определение, потому что вы можете определить динамику процесса как p(s',r | s, a). С практической точки зрения вам не нужно просматривать и вычислять все предыдущие состояния системы, чтобы определить следующие возможные состояния.

person Alexandre Krul    schedule 19.01.2021