Публикации по теме 'reinforcement-learning'


Программирование на Python, управляемое событиями, обучение с подкреплением в играх, обновленное руководство ODSC по машинному обучению и…
Разделение сложных систем с помощью событийно-ориентированного программирования на Python Программирование, управляемое событиями, является важной парадигмой, поскольку оно позволяет легко разделять большие и сложные системы. Это помогает определить четкие границы между независимыми компонентами и улучшает изоляцию между ними. Паладин, Клерик и… Обучение с подкреплением? Обучение с подкреплением вызывает волну в мире видеоигр: от создания ужасных партнеров ИИ до тех пор,..

Обучение с подкреплением - базовые знания
Понимание основных концепций обучения с подкреплением с использованием ценностно-ориентированных методов Вступление Обучение с подкреплением (RL) - это область машинного обучения, которая привлекла большое внимание с 2015 года после того, как команда Google Deep Mind продемонстрировала самообученных агентов DQN, которые учатся ходить, осваивают игры Atari и побеждают про-человеческих игроков в игре Go . RL - это наука, стоящая за программными агентами-самоучками, которые..

Введение в обучение с подкреплением (кодирование SARSA) - часть 4
Мы видели в предыдущей статье о том, как решить среду FrozenLake, доступную в OpenAI gym toolkit, с помощью Q-обучения. В этой статье мы решим эту проблему с помощью алгоритма SARSA. SARSA SARSA - это алгоритм на основе политики, в котором в текущем состоянии S - действие, предпринимается A, и агент получает вознаграждение, R, и переходит в следующее состояние, S1, и выполняет действие, A1 в S1. Следовательно, кортеж (S, A, R, S1, A1) означает аббревиатуру SARSA . Он..

Обучение с подкреплением с Keras + OpenAI: DQN
Краткий обзор В прошлый раз в нашем руководстве по Keras / OpenAI мы обсудили очень простой пример применения глубокого обучения в контекстах обучения с подкреплением. Оглядываясь назад, это было невероятное зрелище! Если вы посмотрите на данные обучения, то модели случайного шанса обычно будут способны выполнять только 60 шагов в среднем. И все же, обучаясь на этих, казалось бы, очень посредственных данных, мы смогли «превзойти» среду (т. Е. Получить производительность ›200 шагов)...

Команда Питера Аббеля предлагает независимый от задач метод RL для автоматической настройки моделирования в реальном мире
Реальный мир сложен и постоянно меняется. Применение методов глубокого обучения (DL) к сложным задачам управления основано на обучении в симуляциях перед переносом моделей в реальный мир. Но существует проблематичный «разрыв реальности», связанный с такими перемещениями, поскольку симуляторам сложно точно уловить или предсказать динамику и визуальные свойства реального мира. Методы рандомизации доменов являются одними из наиболее эффективных способов решения этой проблемы. Модель..

Глубокое обучение с подкреплением, часть 2: Марковский процесс принятия решений
В этом блоге я расскажу о таких понятиях, как: Марковская цепь или марковский процесс То, что мы наблюдаем, называется состояниями , и система может переключаться между состояниями в соответствии с некоторыми правилами динамики. Все возможные состояния системы образуют набор, называемый пространством состояний . Наши наблюдения образуют последовательность состояний или цепочку . Последовательность наблюдений во времени образует цепочку состояний, таких как [солнечный,..

TD Learning - презентация Ричарда Саттона на Летней школе обучения с подкреплением, Монреаль, 2017 г.
Это основные моменты и слайды из лекции профессора Саттона: это действительно особенное время; возможно, мы находимся в точке, где мы достаточно понимаем, как работает разум, чтобы создавать разум с помощью замысла; точные сроки неизвестны, но мы можем с большой долей вероятности сказать, что это произойдет в ближайшие несколько десятилетий. почему это происходит ? Закон Мура; увеличение доступных вычислений меняет все и является глубоким (мы достигли конца закона Мура /..