Публикации по теме 'reinforcement-learning'


Руководство по машинному обучению для новичков
Вы когда-нибудь задумывались, как Netflix выбирает, какие фильмы предлагать, как Siri может реагировать на ваши команды или как автономные транспортные средства могут перемещаться по дорогам? Что ж, все благодаря области исследований, известной как Искусственный интеллект , или сокращенно ИИ. Но что именно представляет собой область искусственного интеллекта и с чем она связана? Ну, ИИ просто относится к моделированию человеческих процессов машинами . Другими словами, по сути, это..

Обучение с подкреплением для реальной робототехники
Идеи из литературы по RL для реального управления роботами Роботы - обещание Роботы широко распространены в современной промышленности. В отличие от большинства научно-фантастических произведений прошлого века, роботы-гуманоиды до сих пор не моют нашу грязную посуду и не выносят мусор, равно как и терминаторы, похожие на Шварценеггера, не сражаются на полях сражений (по крайней мере, на данный момент…). Но почти на каждом производственном предприятии роботы выполняют ту..

PRL - новый подход к созданию фреймворка обучения с подкреплением в Python
Автор Петр Темпчик Идея библиотеки Обучение с подкреплением - это структура для исследователей, которая позволяет вам создавать собственных агентов и проводить эксперименты по RL, комбинируя простые строительные блоки и реализуя только преобразования данных и логику агента. Это сообщение в блоге является введением в библиотеку, поэтому, если вы уже знакомы с основами, вы можете сразу перейти к более подробному руководству здесь . В то время, когда мы начинали наше..

Netflix Shuffle Play: один из лучших примеров обучения с подкреплением.
Как многие из вас, возможно, заметили, Netflix совсем недавно внедрил функцию «Просмотр в случайном порядке» на экранах Smart TV, которая поможет вам найти следующую серию, которая может вам понравиться. Это предназначено для того, чтобы помочь зрителям разгула в это время, когда время просмотра Netflix в расчете на один дом находится на пике, но многие пользователи все еще пытаются найти хорошие фильмы / сериалы для просмотра с разгулом. Это классический пример обучения с подкреплением, и..

Причинно-следственная связь Задача 1: Обобщенное изучение политики
В предыдущем сообщении блога мы разработали некоторые идеи и теории, необходимые для обсуждения причинно-следственного подхода к обучению с подкреплением. Мы формализовали понятия многоруких бандитов (MAB), марковских процессов принятия решений (MDP) и некоторые причинные понятия. В этой записи блога мы, наконец, перейдем к разработке некоторых идей обучения с причинным подкреплением. Первая из них называется Задачей 1 , поскольку CRL может помочь в решении. Это Обобщенное изучение..

Делайте более качественные рекомендации с помощью Reinforcement Learning и Azure Personalizer API
Премия Нетфликс Еще в 2006 году Netflix учредил премию Netflix Prize в размере 1 миллиона долларов за создание лучшего алгоритма прогнозирования для своей киноплатформы. В то время конкурс попал в заголовки газет как из-за новаторского подхода к краудсорсингу их бизнес-задач, так и из-за крупного 7-значного приза. Специфика конкурса заключалась в публикации набора данных из более чем 1 миллиона отзывов пользователей, а также некоторых пользовательских функций. Победившая работа..

Оптимизация политики на основе модели
Обзор последних достижений в области обучения с подкреплением на основе моделей. Введение Глубокое обучение с подкреплением приобрело большую известность в последние годы благодаря некоторым поразительным успехам в видеоиграх, таких как Atari, смоделированных средах управления роботами, таких как Mujoco, и в таких играх, как Chess, Go и Poker. Отличительной чертой большинства историй успеха RL является использование смоделированных сред, которые обеспечивают высокоэффективную..