Q-обучение против временной разницы против обучения с подкреплением на основе моделей

Я учусь на курсе под названием «Интеллектуальные машины» в университете. Нас познакомили с 3 методами усиленного обучения, и с ними нам дали интуицию, когда их использовать, и я цитирую:

Q-Learning — лучше всего, когда MDP не может быть решен.
Обучение временной разнице - лучше всего, когда MDP известен или может быть изучен, но не может быть решен.
На основе модели - лучше всего, когда MDP нельзя изучить.

Есть ли хорошие примеры, объясняющие, когда следует предпочесть один метод другому?

StationaryTraveller 09.12.2015 источник

comment

Q-обучение — это алгоритм временной разности. - Don Reba 09.12.2015

comment

Разве Q-Learning не используется для расчета Q-значения, а Temporal Difference Learning используется для вычисления функции значения? [Они связаны, но не совсем то же самое, я думаю] Или я ошибаюсь? - StationaryTraveller 09.12.2015

comment

V — это функция значения состояния, Q — функция значения действия, а Q-обучение — это особый алгоритм обучения временной разности вне политики. Вы можете изучить либо Q, либо V, используя различные методы TD или не TD, оба из которых могут быть основаны на модели или нет. - Don Reba 10.12.2015

comment

Спасибо за семантику, но это все равно не помогает мне найти пример того, когда какой из них использовать. Когда лучше выбрать значение Q, а не функцию V? - StationaryTraveller 11.12.2015

comment

Вам нужна функция «действие-значение», чтобы сформировать политику. Вы можете узнать его напрямую или получить из функции значения состояния, если знаете функцию вероятности перехода состояния. - Don Reba 11.12.2015

Ответы (1)

arrow_upward
36
arrow_downward

Временная разница — это подход к обучению тому, как предсказывать величину, которая зависит от будущих значений заданный сигнал. Его можно использовать для изучения как V-функции, так и Q-функции, тогда как Q-обучение — это специальный алгоритм TD, используемый для изучения Q-функции. Как сказал Дон Реба, вам нужна Q-функция для выполнения действия (например, следуя эпсилон-жадной политике). Если у вас есть только V-функция, вы все равно можете получить Q-функцию, перебирая все возможные следующие состояния и выбирая действие, которое приведет вас к состоянию с самым высоким значением V. В качестве примеров и дополнительной информации я рекомендую классическую книгу Саттона и Барто.

В безмодельном RL вы не изучаете функцию перехода состояния (модель) и можете полагаться только на примеры. Тем не менее, вам также может быть интересно изучить его, например, потому что вы не можете собрать много образцов и хотите сгенерировать несколько виртуальных. В этом случае мы говорим о основанном на модели RL. RL на основе моделей довольно распространен в робототехнике, где вы не можете выполнять много реальных симуляций, иначе робот сломается. Это хороший обзор со множеством примеров (но он говорит только об алгоритмах поиска политик). В качестве другого примера см. эту статью. . Здесь авторы изучают - наряду с политикой - гауссовский процесс для аппроксимации прямой модели робота, чтобы смоделировать траектории и уменьшить количество реальных взаимодействий робота.

Simon 14.12.2015

Q-обучение против временной разницы против обучения с подкреплением на основе моделей

Ответы (1)

Похожие вопросы