Как новичок в глубоком обучении с подкреплением, я не понимаю, почему мы должны использовать марковский процесс в обучении с подкреплением и какие преимущества он дает обучению с подкреплением. Кроме того, марковский процесс требует, чтобы при известном условии настоящее не имело ничего общего с будущим. Почему некоторые алгоритмы глубокого обучения с подкреплением могут использовать RNN и LSTM? Нарушает ли это предположение о марковском процессе?
Зачем вводить свойство Маркова в обучение с подкреплением?
Ответы (2)
Свойство Маркова используется для математических расчетов в процессе оптимизации. Однако имейте в виду, что это гораздо более широко применимо, чем вы думаете. Например, если в определенной настольной игре вам нужно знать три последних состояния игры, это может показаться нарушением марковского свойства; однако, если вы просто переопределите свое состояние как объединение трех последних состояний, вы снова вернетесь в MDP.
Это предположение говорит о том, что текущее состояние дает всю необходимую информацию обо всех аспектах прошлой итерации агент-среда, которая имеет значение для будущего системы. Это важное определение, потому что вы можете определить динамику процесса как p(s',r | s, a). С практической точки зрения вам не нужно просматривать и вычислять все предыдущие состояния системы, чтобы определить следующие возможные состояния.