Связан ли переход состояния марковского процесса принятия решений с действием?

Я знаю, что когда свойство Маркова удовлетворено, следующее состояние связано только с текущим состоянием. Но в марковском процессе принятия решений (MDP) нам нужно выбрать действие и выполнить его, чтобы совершить этот переход. Означает ли это, что переходы состояний связаны с выбранным действием, а не только с состоянием? И нарушает ли эта ситуация свойство Маркова?

В большинстве случаев обучение с подкреплением основано на MDP. Если в MDP мы считаем выбранное действие фактором Марковского свойства, то в AlphaGo следующее состояние не просто связано с текущим состоянием и выбранным действием, на него также влияет действие противника. Удовлетворяет ли го-игра свойству Маркова? Разве алгоритм обучения с подкреплением не требует, чтобы среда полностью удовлетворяла свойству Маркова? Очень запутанно.

Если в го-игре мы по-прежнему считаем, что переход состояния связан только с текущим состоянием, то проблемы нет.

Удовлетворяет ли игра Го свойству Маркова? Является ли выбранное действие в MDP фактором воздействия между переходом? Алгоритм RL (на основе MDP, а не POMDP) ​​не требует, чтобы среда полностью удовлетворяла свойству Маркова?


person Keavnn    schedule 11.05.2019    source источник


Ответы (1)


Марковским свойством обладает не алгоритм. Свойство Маркова — это свойство постановки задачи, и оно зависит от того, какие состояния вы используете.

Но да, в MDP переход состояния зависит не только от текущего состояния, но и от действия, предпринятого контроллером. Но это не зависит от каких-либо более ранних состояний. Это свойство Маркова.

Когда вы находитесь в определенном состоянии, не имеет значения, как вы туда попали. Текущее состояние содержит всю информацию, необходимую для прогнозирования или принятия решения. Это значительно упрощает алгоритм принятия решения, потому что ему не нужна память.

Чтобы MDP имело смысл с противником, вы должны думать о противнике как о части среды. Противник делает детерминированный (или даже случайный) выбор, но этот выбор основан только на текущем состоянии доски.

Строго говоря, в го также нужно избегать повторения предыдущих позиций на доске. Таким образом, если вы используете текущую позицию на доске в качестве своего состояния, свойство Маркова нарушается: вы можете получить дополнительные релевантные знания, просматривая прошлые позиции на доске.

person maxy    schedule 11.05.2019
comment
Спасибо за ваш ответ. Но я все еще не понимаю, удовлетворяет ли Go свойство Маркова. И если у него есть свойство Маркова, то это проблема MDP или проблема POMDP? - person Keavnn; 12.05.2019