Я знаю, что когда свойство Маркова удовлетворено, следующее состояние связано только с текущим состоянием. Но в марковском процессе принятия решений (MDP) нам нужно выбрать действие и выполнить его, чтобы совершить этот переход. Означает ли это, что переходы состояний связаны с выбранным действием, а не только с состоянием? И нарушает ли эта ситуация свойство Маркова?
В большинстве случаев обучение с подкреплением основано на MDP. Если в MDP мы считаем выбранное действие фактором Марковского свойства, то в AlphaGo следующее состояние не просто связано с текущим состоянием и выбранным действием, на него также влияет действие противника. Удовлетворяет ли го-игра свойству Маркова? Разве алгоритм обучения с подкреплением не требует, чтобы среда полностью удовлетворяла свойству Маркова? Очень запутанно.
Если в го-игре мы по-прежнему считаем, что переход состояния связан только с текущим состоянием, то проблемы нет.
Удовлетворяет ли игра Го свойству Маркова? Является ли выбранное действие в MDP фактором воздействия между переходом? Алгоритм RL (на основе MDP, а не POMDP) не требует, чтобы среда полностью удовлетворяла свойству Маркова?