Статьи по теме reinforcement-learning

Публикации по теме 'reinforcement-learning'

Основные концепции обучения с подкреплением на примере

Прокатитесь в MountainCar спортзала OpenAI Gym, чтобы изучить теорию RL. Авторы Ханна Петерсон и Джордж Уильямс ([email protected]) Вы можете вспомнить из предыдущего поста в этой серии об обучении с подкреплением (RL), что Марковский процесс принятия решений (MDP) - это математическая основа для моделирования задач RL. Чтобы обосновать математическую теорию MDP на практике, мы определили каждый из ее элементов в контексте игры MountainCar OpenAI Gym. Теперь, когда..

Воспитание ребенка или воспитание машины: что сложнее?

Несколько дней назад я стал родителем и понял, что это более красивый и более сложный способ воспитывать ребенка, чем воспитывать машину. Когда я говорю «родить машину», значит обучать машину работе. Знаете, я тоже из тех, кто увлекается машинным обучением! Почему сложнее? Потому что Младенцы (люди) умны и обладают собственным разумом. У людей есть 5 чувств (конечно, у некоторых может быть шестое или даже больше), которые являются врожденными, и это красота природы или..

От REINFORCE к актеру-критику

Давайте изучим эту эволюцию. УКРЕПИТЬ Давайте посмотрим на этот алгоритм. Параметр У нас есть среда и агент, который использует нейронную сеть. Кроме того, пространство для действий конечно и дискретно. На вход нейронная сеть получает состояние среды и выводит вероятности действий. Пусть π(a, s) — вероятность выполнения действия a в состоянии s. Итак, схема агента/нейронной сети выглядит так Итак, нейронная сеть описывает нашу политику π нашего агента, а..

Исследовательский проект: перевернутое обучение с подкреплением

В конце 2019 года были опубликованы Документы ( 1 и 2 ) Обучение с подкреплением вверх ногами Юргена Шмидхубера и Рупеша Кумара Шривастава и др. были опубликованы. Когда я начал читать их, их новый подход к изучению области обучения с подкреплением сразу же меня зацепил и заинтересовал. Вскоре после прочтения статей я начал работать над собственной реализацией и был удивлен, насколько просто это было реализовать. При тестировании алгоритма в разных средах быстро появились..

Стабильные базовые показатели: ответвление базовых показателей OpenAI - обучение с подкреплением стало проще

После нескольких недель напряженной работы мы рады объявить о выпуске Stable Baselines , набора реализаций алгоритмов обучения с подкреплением (RL) с общим интерфейсом на основе OpenAI Baselines. Мы сделали упор на простоту использования и единообразие. В этой статье мы представим различные примеры (базовое использование, сохранение / загрузка агентов, простая многопроцессорная обработка, обучение играм Atari и многое другое) вместе с происхождением форка. Обновление (май 2020 г.) :..

Что такое машинное обучение ????

Многие люди думают, что ML - очень интересное слово, и на самом деле это очень интересная область. люди думают, что это очень сложная область обучения, которая включает в себя огромное количество программирования и математики. Без этого мы не сможем начать работу с машинным обучением. но в этой статье я с самого начала расскажу о машинном обучении. Термин «машинное обучение» был придуман Артуром Самуэлем в 1959 году. На самом деле это очень старый термин, но в наши дни он..

Обучение с подкреплением: следующий рубеж

Глубокое обучение за последние годы достигло многих вех — сверточные нейронные сети превзошли человеческие возможности в таких задачах, как обнаружение объектов и классификация изображений. Трансформеры обеспечивают потрясающие результаты в задачах на естественном языке. Хотя это выдающиеся достижения, эти методы страдают тем, что требуют большого количества размеченных обучающих наборов данных, которые часто трудно получить. Кроме того, люди не учатся таким образом. Обучение с..