Просматривая различные материалы об обучении с подкреплением, я нашел две версии уравнений V
и Q
:
Эта пара:
V(s) = max<sub>a</sub> (sum<sub>s'</sub> P(s'|s,a) (R(s,a,s') + lambda V(s')))
Q(s,a) = sum<sub>s'</sub> P(s'|s,a) (R(s,a,s') + lambda max<sub>a'</sub> Q(s',a'))
И эта пара:
V(s) = R(s,a) + max<sub>a</sub> (sum <sub>s'</sub> P(s'|s,a) lambda V(s'))
Q(s,a) = R(s,a) + sum<sub>s'</sub> (P(s'|s,a) lambda max<sub>a'</sub> Q(s',a'))
Основное различие заключается в том, включают ли V
и Q
в свое значение немедленную награду и определяется ли значение состояния исключительно состоянием или переходом. Хотя последнюю пару я вижу реже, я уверен, что она правильная.
Влияют ли эти или какие-либо другие различия между ними на работу различных алгоритмов подкрепления?