Как решить детерминированную MDP в нестационарной среде

Я ищу метод решения марковского процесса принятия решений (MDP). Я знаю, что переход из одного состояния в другое детерминирован, но среда нестационарна. Это означает, что вознаграждение, которое получает агент, может быть другим при повторном посещении того же состояния. Есть ли алгоритм, такой как Q-Learning или SARSA, который я могу использовать для решения своей проблемы?


person Thousandsunnies    schedule 09.03.2018    source источник


Ответы (1)


Теоретически это будет очень сложная задача. То есть будет очень сложно найти алгоритм с теоретическими доказательствами сходимости к любому (оптимальному) решению.

На практике любой стандартный алгоритм RL (например, названный вами) может подойти, если он не «слишком нестационарный». Я имею в виду, что на практике все будет хорошо, если ваша среда не будет меняться слишком быстро/внезапно/часто. Возможно, вы захотите использовать немного более высокую скорость исследования и/или более высокую скорость обучения, чем в стационарных условиях, потому что вам нужно продолжать учиться, а более свежий опыт будет более информативным, чем предыдущий.

person Dennis Soemers    schedule 09.03.2018
comment
Но где грань между достаточно стационарным и недостаточно стационарным. Что именно слишком часто? Каждый временной шаг, каждый пятый или десятый временной шаг? Я думаю, что все зависит от дизайна моего MDP. Поэтому я хочу убедиться, что найду оптимальное решение. И я хочу быть в состоянии объяснить, почему Мое Определение Состояний и действий такое, какое оно есть. Как насчет детерминированной части? Влияет ли это на решение? - person Thousandsunnies; 11.03.2018
comment
@Thousandsunnies Невозможно сказать, где на самом деле линия. Я уже конкретно говорил о практике/опытным путем, а не теории. Если вы говорите об общей настройке RL (которую я предположил из-за упоминания о Q-learning / SARSA), где свойства MDP (например, матрица переходов) неизвестны, и вы можете учиться только на опыте, то тут немного больше. скажем теоретически. Если вы действительно знаете все свойства MDP, это может что-то изменить, но тогда нам нужно будет знать все точные формальные детали. - person Dennis Soemers; 11.03.2018