Я учусь на курсе под названием «Интеллектуальные машины» в университете. Нас познакомили с 3 методами усиленного обучения, и с ними нам дали интуицию, когда их использовать, и я цитирую:
- Q-Learning — лучше всего, когда MDP не может быть решен.
- Обучение временной разнице - лучше всего, когда MDP известен или может быть изучен, но не может быть решен.
- На основе модели - лучше всего, когда MDP нельзя изучить.
Есть ли хорошие примеры, объясняющие, когда следует предпочесть один метод другому?