Зачем вводить свойство Маркова в обучение с подкреплением?

Как новичок в глубоком обучении с подкреплением, я не понимаю, почему мы должны использовать марковский процесс в обучении с подкреплением и какие преимущества он дает обучению с подкреплением. Кроме того, марковский процесс требует, чтобы при известном условии настоящее не имело ничего общего с будущим. Почему некоторые алгоритмы глубокого обучения с подкреплением могут использовать RNN и LSTM? Нарушает ли это предположение о марковском процессе?

deep-learning reinforcement-learning markov

曹子轩 23.12.2020 источник

Ответы (2)

arrow_upward
2
arrow_downward

Свойство Маркова используется для математических расчетов в процессе оптимизации. Однако имейте в виду, что это гораздо более широко применимо, чем вы думаете. Например, если в определенной настольной игре вам нужно знать три последних состояния игры, это может показаться нарушением марковского свойства; однако, если вы просто переопределите свое состояние как объединение трех последних состояний, вы снова вернетесь в MDP.

Federico Malerba 01.01.2021

arrow_upward
0
arrow_downward

Это предположение говорит о том, что текущее состояние дает всю необходимую информацию обо всех аспектах прошлой итерации агент-среда, которая имеет значение для будущего системы. Это важное определение, потому что вы можете определить динамику процесса как p(s',r | s, a). С практической точки зрения вам не нужно просматривать и вычислять все предыдущие состояния системы, чтобы определить следующие возможные состояния.

Alexandre Krul 19.01.2021

Зачем вводить свойство Маркова в обучение с подкреплением?

Ответы (2)

Похожие вопросы