Публикации по теме 'q-learning'


Иерархическое обучение с подкреплением
С фреймворком Options-Critic с использованием табличного Q-Learning Иерархическое обучение с подкреплением разбивает долгосрочный процесс принятия решений на более простые подзадачи. Эта идея очень похожа на разбиение большого количества строк кода на более мелкие функции, каждая из которых выполняет очень специфическую задачу. Давайте рассмотрим пример. Предположим, агент должен убрать или накрыть обеденный стол. Это включает в себя задачу достижения и захвата тарелок. Это задачи..

Питер и волк: обучающее приключение с подкреплением
Введение Добро пожаловать в увлекательное путешествие в мир Reinforcement Learning (RL)! В этом уроке мы рассмотрим, как можно применить RL к задаче поиска пути, вдохновленной знаменитой музыкальной сказкой «Петя и волк», написанной Сергеем Прокофьевым. Присоединяйтесь к нам, пока мы обучаем алгоритмы машинного обучения, чтобы помочь Петру, отважному юному первопроходцу, исследовать лес и построить оптимальную навигационную карту. Сеттинг: Мир Питера В нашем сценарии мир Питера..

Вопросы по теме 'q-learning'

Q-обучение против временной разницы против обучения с подкреплением на основе моделей
Я учусь на курсе под названием «Интеллектуальные машины» в университете. Нас познакомили с 3 методами усиленного обучения, и с ними нам дали интуицию, когда их использовать, и я цитирую: Q-Learning — лучше всего, когда MDP не может быть решен....
16999 просмотров

Q Коэффициенты обучения переполняются
Я использовал задание «черный ящик» (www.blackboxchallenge.com), чтобы попробовать научиться чему-то с подкреплением. Я создал задачу и среду для задачи и использую PyBrain для обучения на основе среды черного ящика. Резюме среды заключается в...
469 просмотров

Это правильная реализация Q-Learning for Checkers?
Я пытаюсь понять Q-Learning , Мой текущий алгоритм работает следующим образом: 1. Ведется справочная таблица, которая сопоставляет состояние с информацией о его немедленном вознаграждении и полезности для каждого доступного действия....
912 просмотров

приоритетное воспроизведение опыта в глубоком Q-обучении
я реализовал DQN в проблеме с горным автомобилем в спортзале openai. эта проблема особенная, поскольку положительное вознаграждение очень редкое. поэтому я подумал о реализации воспроизведения приоритетного опыта, как это предлагается в этой...
2891 просмотров

Почему DQN дает одинаковые значения всем действиям в пространстве действий (2) для всех наблюдений?
У меня есть алгоритм DQN, который обучается (потери сходятся к 0), но, к сожалению, он изучает функцию значения Q, так что оба значения Q для каждого из 2 возможных действий очень похожи. Стоит отметить, что значения Q меняются очень незначительно...
1339 просмотров

Представление состояния для мира сетки
Я новичок в обучении с подкреплением и q-обучении, и я пытаюсь понять концепции и попытаться их реализовать. Большинство материалов, которые я нашел, используют слои CNN для обработки ввода изображения. Я думаю, что лучше начать с чего-то более...
610 просмотров

DQN - Q-Loss не сходится
Я использую алгоритм DQN для обучения агента в своей среде, который выглядит следующим образом: Агент управляет автомобилем, выбирая дискретные действия (влево, вправо, вверх, вниз). Цель - проехать с желаемой скоростью, не врезаясь в другие...
12633 просмотров

Количество значений Q для сети глубокого обучения с подкреплением
В настоящее время я разрабатываю сеть глубокого обучения с подкреплением, однако у меня есть небольшие сомнения относительно количества q-значений, которые я получу на выходе NN. Всего у меня будет 150 q-значений, что лично мне кажется избыточным. Я...
62 просмотров

Модель Q-обучения не улучшается
Я пытаюсь решить проблему с тележкой в ​​спортзале openAI. По Q обучения. Я думаю, что неправильно понял, как работает Q-обучение, поскольку моя модель не улучшается. Я использую словарь в качестве таблицы Q. Поэтому я "хеширую" (превращаю в...
183 просмотров

tf.losses.mean_squared_error с отрицательной целью
Я использую Q-обучение и хочу знать, могу ли я использовать функцию расчета потерь tf.losses.mean_squared_error, если у меня есть функция вознаграждения, которая может давать отрицательные вознаграждения. Потому что, если у меня есть, например, в...
919 просмотров

Сеть Deep Q дает те же значения Q и не улучшается
Я пытаюсь построить глубокую сеть Q, чтобы играть в змею. Я столкнулся с проблемой, когда агент не обучается, и его производительность в конце цикла обучения заключается в многократном самоуничтожении. После небольшой отладки я понял, что значения...
249 просмотров

Создайте конкретный тензор из другого тензора
q_pred = self.Q.forward(states) дает мне следующий результат: tensor([[-4.4713e-02, 4.2878e-03], [-2.2801e-01, 2.2295e-01], [-9.8098e-03, -1.0766e-01], [-1.4654e-01, 1.2742e-01], [-1.6224e-01, 1.6565e-01],...
59 просмотров
schedule 17.07.2023

Q-значения становятся слишком высокими, значения становятся NaN, Q-Learning Tensorflow
Я запрограммировал очень простую игру, которая работает следующим образом: Имея поле 4x4 квадратов, игрок может двигаться (вверх, вправо, вниз или влево). Выход на квадрат, который агент никогда раньше не посещал, дает награду 1....
253 просмотров

Почему оценка (накопленная награда) снижается на этапе эксплуатации в этой модели глубокого Q-обучения?
Мне трудно заставить агента Deep Q-Learning найти оптимальную политику. Вот как моя текущая модель выглядит в TensorFlow: model = Sequential() model.add(Dense(units=32, activation="relu", input_dim=self.env.state.size)),...
29 просмотров

DQN понимает ввод и вывод (уровень)
У меня вопрос о входе и выходе (слое) DQN. e.g Две точки: P1 (x1, y1) и P2 (x2, y2) P1 должен идти в сторону P2. У меня есть следующая информация: Текущая позиция P1 (x / y) Текущая позиция P2 (x / y) Расстояние до P1-P2 (x / y)...
293 просмотров

Глубокое обучение с подкреплением - проблема CartPole
Я попытался реализовать самый простой алгоритм Deep Q Learning. Я думаю, что реализовал это правильно и знаю, что Deep Q Learning борется с расхождениями, но награда очень быстро уменьшается, а потери расходятся. Я был бы признателен, если бы...
113 просмотров