Q-обучение против временной разницы против обучения с подкреплением на основе моделей

Я учусь на курсе под названием «Интеллектуальные машины» в университете. Нас познакомили с 3 методами усиленного обучения, и с ними нам дали интуицию, когда их использовать, и я цитирую:

  1. Q-Learning — лучше всего, когда MDP не может быть решен.
  2. Обучение временной разнице - лучше всего, когда MDP известен или может быть изучен, но не может быть решен.
  3. На основе модели - лучше всего, когда MDP нельзя изучить.

Есть ли хорошие примеры, объясняющие, когда следует предпочесть один метод другому?


person StationaryTraveller    schedule 09.12.2015    source источник
comment
Q-обучение — это алгоритм временной разности.   -  person Don Reba    schedule 09.12.2015
comment
Разве Q-Learning не используется для расчета Q-значения, а Temporal Difference Learning используется для вычисления функции значения? [Они связаны, но не совсем то же самое, я думаю] Или я ошибаюсь?   -  person StationaryTraveller    schedule 09.12.2015
comment
V — это функция значения состояния, Q — функция значения действия, а Q-обучение — это особый алгоритм обучения временной разности вне политики. Вы можете изучить либо Q, либо V, используя различные методы TD или не TD, оба из которых могут быть основаны на модели или нет.   -  person Don Reba    schedule 10.12.2015
comment
Спасибо за семантику, но это все равно не помогает мне найти пример того, когда какой из них использовать. Когда лучше выбрать значение Q, а не функцию V?   -  person StationaryTraveller    schedule 11.12.2015
comment
Вам нужна функция «действие-значение», чтобы сформировать политику. Вы можете узнать его напрямую или получить из функции значения состояния, если знаете функцию вероятности перехода состояния.   -  person Don Reba    schedule 11.12.2015


Ответы (1)


Временная разница — это подход к обучению тому, как предсказывать величину, которая зависит от будущих значений заданный сигнал. Его можно использовать для изучения как V-функции, так и Q-функции, тогда как Q-обучение — это специальный алгоритм TD, используемый для изучения Q-функции. Как сказал Дон Реба, вам нужна Q-функция для выполнения действия (например, следуя эпсилон-жадной политике). Если у вас есть только V-функция, вы все равно можете получить Q-функцию, перебирая все возможные следующие состояния и выбирая действие, которое приведет вас к состоянию с самым высоким значением V. В качестве примеров и дополнительной информации я рекомендую классическую книгу Саттона и Барто.

В безмодельном RL вы не изучаете функцию перехода состояния (модель) и можете полагаться только на примеры. Тем не менее, вам также может быть интересно изучить его, например, потому что вы не можете собрать много образцов и хотите сгенерировать несколько виртуальных. В этом случае мы говорим о основанном на модели RL. RL на основе моделей довольно распространен в робототехнике, где вы не можете выполнять много реальных симуляций, иначе робот сломается. Это хороший обзор со множеством примеров (но он говорит только об алгоритмах поиска политик). В качестве другого примера см. эту статью. . Здесь авторы изучают - наряду с политикой - гауссовский процесс для аппроксимации прямой модели робота, чтобы смоделировать траектории и уменьшить количество реальных взаимодействий робота.

person Simon    schedule 14.12.2015