Публикации по теме 'reinforcement-learning'


В погоне за (роботизированным) счастьем: как TRPO и PPO стабилизируют методы градиента политики
Сейчас обучение с подкреплением кажется мне диким западом машинного обучения: место, полное драмы и прогресса, с мечтами о великом будущем, витающими на горизонте каждого. Но, кроме того, это место, немного удаленное от правил и предположений, управляющих мирами контролируемого и неконтролируемого обучения. Одним из наиболее заметных отклонений от типичных предположений является тот факт, что, в частности, в градиентах политики вы не можете достоверно знать, действительно ли направление, в..

Выяснение итераций политики в обучении с подкреплением - проблема аренды автомобиля Джека
В этом сообщении в блоге я попытаюсь разъяснить алгоритм итерации политики в обучении с подкреплением, используя его для решения проблемы аренды автомобиля Джека. Эта задача и ее вариант приведены в примере 4.2 и упражнении 4.5, соответственно, в книге Саттона и Барто (Обучение с подкреплением: введение, второе издание). Постановка задачи Джек управляет двумя офисами в общенациональной компании по аренде автомобилей. Каждый день некоторое количество клиентов приезжает в каждое..

Статистика, машинное обучение и живописное путешествие на поезде
Я готовлю контент для курса по аналитике, который буду вести в ближайшее время. Во время этого процесса курирования состоялось несколько интересных обсуждений с людьми реальных вариантов использования и всего жаргона, такого как Нулевая гипотеза, Проверка гипотез, p-значение, Z-оценка, Контролируемые, неконтролируемые, наборы данных для обучения и тестирования, корреляции и т. д. Решили, что я должен объединить свои знания в этом посте и получить мнения более широкой аудитории. В..

Ускорение квадратичной оптимизации до 3 раз с помощью обучения с подкреплением
Методы первого порядка для решения квадратичных программ (QP) широко используются для быстрого решения нескольких задач и встроенного оптимального управления в крупномасштабном машинном обучении. Проблема в том, что эти подходы обычно требуют тысяч итераций, что делает их непригодными для приложений управления в реальном времени, которые имеют жесткие ограничения по задержке. Чтобы решить эту проблему, исследовательская группа из Калифорнийского университета, Принстонского университета..

Освоение RL за считанные минуты: шумные сети для исследования
Простой, мощный и альтернативный подход к исследованию Статья : Шумные сети для исследования Авторы: Мейре Фортунато , Мохаммад Гешлаги Азар , Билал Пиот , Джейкоб Меник , Иан Осбанд , Алекс Грейвс , Влад Мних , Реми Мунос , Демис Хассабис , Оливье Пьекин , Чарльз Бланделл , Шейн Легг Резюме : Коушик Чиламкурти Любые предложения и отзывы? напишите письмо: [email protected] Спасибо!

Стипендия AWS DeepRacer; Я в
Несколько месяцев назад Udacity объявил о стипендии AWS DeepRacer, стипендии для изучения наностепени машинного обучения Udacity, для получения которой вы должны войти в число 200 лучших исполнителей - среди соискателей - в испытании глубоких гонок от Amazon. Поскольку соревнование структурировано, нам нужно только заполнить код для функции вознаграждения - разные функции вознаграждения = ›разные способы интерпретации и действия на информацию =› различная производительность), в то..

Руководство по машинному обучению для новичков
Вы когда-нибудь задумывались, как Netflix выбирает, какие фильмы предлагать, как Siri может реагировать на ваши команды или как автономные транспортные средства могут перемещаться по дорогам? Что ж, все благодаря области исследований, известной как Искусственный интеллект , или сокращенно ИИ. Но что именно представляет собой область искусственного интеллекта и с чем она связана? Ну, ИИ просто относится к моделированию человеческих процессов машинами . Другими словами, по сути, это..