Вопросы по теме 'temporal-difference'

Q-обучение против временной разницы против обучения с подкреплением на основе моделей
Я учусь на курсе под названием «Интеллектуальные машины» в университете. Нас познакомили с 3 методами усиленного обучения, и с ними нам дали интуицию, когда их использовать, и я цитирую: Q-Learning — лучше всего, когда MDP не может быть решен....
16999 просмотров

Как сказать, что моя нейронная сеть с самостоятельным воспроизведением переоснащена
У меня есть нейронная сеть, предназначенная для игры в Connect 4, она измеряет ценность состояния игры по отношению к игроку 1 или игроку 2. Чтобы обучить его, я заставляю его играть против самого себя n количество игр. Я обнаружил, что 1000...
415 просмотров