Публикации по теме 'markov-decision-process'


Введение в обучение с подкреплением: процесс принятия решений по Маркову
#InsideRL Обучение с подкреплением: процесс принятия решений по Маркову (часть 1) В типичной задаче обучения с подкреплением (RL) есть учащийся и лицо, принимающее решения, называемое агентом , а окружение, с которым он взаимодействует, называется средой . В свою очередь, среда предоставляет вознаграждения и новое состояние на основе действий агента. Итак, в обучении с подкреплением мы не учим агента, как он должен что-то делать, а даем ему положительные или отрицательные..

Введение в обучение с подкреплением
Когда мы рождаемся, первое, что мы делаем, это взаимодействуем с окружающей средой, которая нам совершенно неизвестна. Наши действия превращаются в последствия, которые мы усваиваем в виде опыта. Этот процесс обучения был получен в серии алгоритмов, которые сгруппированы под названием «обучение с подкреплением» и в настоящее время лидируют в революции искусственного интеллекта, особенно в области машинного обучения. 2010 — Google покупает DeepMind за ~ 450 миллионов долларов...

Глубокое обучение с подкреплением, часть 2: Марковский процесс принятия решений
В этом блоге я расскажу о таких понятиях, как: Марковская цепь или марковский процесс То, что мы наблюдаем, называется состояниями , и система может переключаться между состояниями в соответствии с некоторыми правилами динамики. Все возможные состояния системы образуют набор, называемый пространством состояний . Наши наблюдения образуют последовательность состояний или цепочку . Последовательность наблюдений во времени образует цепочку состояний, таких как [солнечный,..

Выяснение итераций политики в обучении с подкреплением - проблема аренды автомобиля Джека
В этом сообщении в блоге я попытаюсь разъяснить алгоритм итерации политики в обучении с подкреплением, используя его для решения проблемы аренды автомобиля Джека. Эта задача и ее вариант приведены в примере 4.2 и упражнении 4.5, соответственно, в книге Саттона и Барто (Обучение с подкреплением: введение, второе издание). Постановка задачи Джек управляет двумя офисами в общенациональной компании по аренде автомобилей. Каждый день некоторое количество клиентов приезжает в каждое..

Netflix Shuffle Play: один из лучших примеров обучения с подкреплением.
Как многие из вас, возможно, заметили, Netflix совсем недавно внедрил функцию «Просмотр в случайном порядке» на экранах Smart TV, которая поможет вам найти следующую серию, которая может вам понравиться. Это предназначено для того, чтобы помочь зрителям разгула в это время, когда время просмотра Netflix в расчете на один дом находится на пике, но многие пользователи все еще пытаются найти хорошие фильмы / сериалы для просмотра с разгулом. Это классический пример обучения с подкреплением, и..

Вопросы по теме 'markov-decision-process'

Как решить детерминированную MDP в нестационарной среде
Я ищу метод решения марковского процесса принятия решений (MDP). Я знаю, что переход из одного состояния в другое детерминирован, но среда нестационарна. Это означает, что вознаграждение, которое получает агент, может быть другим при повторном...
463 просмотров

Связан ли переход состояния марковского процесса принятия решений с действием?
Я знаю, что когда свойство Маркова удовлетворено, следующее состояние связано только с текущим состоянием. Но в марковском процессе принятия решений (MDP) нам нужно выбрать действие и выполнить его, чтобы совершить этот переход. Означает ли это, что...
93 просмотров