Публикации по теме 'aamir-p'


Обучение с подкреплением — Аамир П.
Это тип машинного обучения, при котором агент изучает окружающую среду, взаимодействуя с ней, и принимает решения для дальнейшей работы. Действия будут предприняты в отношении среды, и по результатам действий агент получит обратную связь в виде вознаграждений или штрафов. Давайте погрузимся в пример в реальном времени, чтобы понять это лучше. Я обучаю робота играть в лабиринт. Представьте, что роботу нужно добраться до места назначения. Робот ничего не знает о расположении..