Статьи по теме q-learning

Публикации по теме 'q-learning'

Иерархическое обучение с подкреплением

С фреймворком Options-Critic с использованием табличного Q-Learning Иерархическое обучение с подкреплением разбивает долгосрочный процесс принятия решений на более простые подзадачи. Эта идея очень похожа на разбиение большого количества строк кода на более мелкие функции, каждая из которых выполняет очень специфическую задачу. Давайте рассмотрим пример. Предположим, агент должен убрать или накрыть обеденный стол. Это включает в себя задачу достижения и захвата тарелок. Это задачи..

Питер и волк: обучающее приключение с подкреплением

Введение Добро пожаловать в увлекательное путешествие в мир Reinforcement Learning (RL)! В этом уроке мы рассмотрим, как можно применить RL к задаче поиска пути, вдохновленной знаменитой музыкальной сказкой «Петя и волк», написанной Сергеем Прокофьевым. Присоединяйтесь к нам, пока мы обучаем алгоритмы машинного обучения, чтобы помочь Петру, отважному юному первопроходцу, исследовать лес и построить оптимальную навигационную карту. Сеттинг: Мир Питера В нашем сценарии мир Питера..

Вопросы по теме 'q-learning'

Q-обучение против временной разницы против обучения с подкреплением на основе моделей

Я учусь на курсе под названием «Интеллектуальные машины» в университете. Нас познакомили с 3 методами усиленного обучения, и с ними нам дали интуицию, когда их использовать, и я цитирую: Q-Learning — лучше всего, когда MDP не может быть решен....

16999 просмотров

20.10.2023

Q Коэффициенты обучения переполняются

Я использовал задание «черный ящик» (www.blackboxchallenge.com), чтобы попробовать научиться чему-то с подкреплением. Я создал задачу и среду для задачи и использую PyBrain для обучения на основе среды черного ящика. Резюме среды заключается в...

469 просмотров

reinforcement-learning q-learning pybrain

15.07.2022

Это правильная реализация Q-Learning for Checkers?

Я пытаюсь понять Q-Learning , Мой текущий алгоритм работает следующим образом: 1. Ведется справочная таблица, которая сопоставляет состояние с информацией о его немедленном вознаграждении и полезности для каждого доступного действия....

912 просмотров

machine-learning agent reinforcement-learning q-learning pseudocode

20.04.2023

приоритетное воспроизведение опыта в глубоком Q-обучении

я реализовал DQN в проблеме с горным автомобилем в спортзале openai. эта проблема особенная, поскольку положительное вознаграждение очень редкое. поэтому я подумал о реализации воспроизведения приоритетного опыта, как это предлагается в этой...

2891 просмотров

deep-learning reinforcement-learning q-learning priority-queue

04.09.2022

Почему DQN дает одинаковые значения всем действиям в пространстве действий (2) для всех наблюдений?

У меня есть алгоритм DQN, который обучается (потери сходятся к 0), но, к сожалению, он изучает функцию значения Q, так что оба значения Q для каждого из 2 возможных действий очень похожи. Стоит отметить, что значения Q меняются очень незначительно...

1339 просмотров

machine-learning computer-vision keras deep-learning q-learning

26.05.2023

Представление состояния для мира сетки

Я новичок в обучении с подкреплением и q-обучении, и я пытаюсь понять концепции и попытаться их реализовать. Большинство материалов, которые я нашел, используют слои CNN для обработки ввода изображения. Я думаю, что лучше начать с чего-то более...

610 просмотров

neural-network reinforcement-learning q-learning

07.02.2023

DQN - Q-Loss не сходится

Я использую алгоритм DQN для обучения агента в своей среде, который выглядит следующим образом: Агент управляет автомобилем, выбирая дискретные действия (влево, вправо, вверх, вниз). Цель - проехать с желаемой скоростью, не врезаясь в другие...

12633 просмотров

tensorflow deep-learning reinforcement-learning q-learning

06.07.2023

Количество значений Q для сети глубокого обучения с подкреплением

В настоящее время я разрабатываю сеть глубокого обучения с подкреплением, однако у меня есть небольшие сомнения относительно количества q-значений, которые я получу на выходе NN. Всего у меня будет 150 q-значений, что лично мне кажется избыточным. Я...

62 просмотров

deep-learning neural-network reinforcement-learning q-learning

23.08.2023

Модель Q-обучения не улучшается

Я пытаюсь решить проблему с тележкой в спортзале openAI. По Q обучения. Я думаю, что неправильно понял, как работает Q-обучение, поскольку моя модель не улучшается. Я использую словарь в качестве таблицы Q. Поэтому я "хеширую" (превращаю в...

183 просмотров

python reinforcement-learning q-learning openai-gym

12.04.2023

tf.losses.mean_squared_error с отрицательной целью

Я использую Q-обучение и хочу знать, могу ли я использовать функцию расчета потерь tf.losses.mean_squared_error, если у меня есть функция вознаграждения, которая может давать отрицательные вознаграждения. Потому что, если у меня есть, например, в...

919 просмотров

tensorflow neural-network reinforcement-learning loss-function q-learning

04.11.2023

Сеть Deep Q дает те же значения Q и не улучшается

Я пытаюсь построить глубокую сеть Q, чтобы играть в змею. Я столкнулся с проблемой, когда агент не обучается, и его производительность в конце цикла обучения заключается в многократном самоуничтожении. После небольшой отладки я понял, что значения...

249 просмотров

python keras deep-learning reinforcement-learning q-learning

19.09.2023

Создайте конкретный тензор из другого тензора

q_pred = self.Q.forward(states) дает мне следующий результат: tensor([[-4.4713e-02, 4.2878e-03], [-2.2801e-01, 2.2295e-01], [-9.8098e-03, -1.0766e-01], [-1.4654e-01, 1.2742e-01], [-1.6224e-01, 1.6565e-01],...

59 просмотров

python pytorch q-learning

17.07.2023

Q-значения становятся слишком высокими, значения становятся NaN, Q-Learning Tensorflow

Я запрограммировал очень простую игру, которая работает следующим образом: Имея поле 4x4 квадратов, игрок может двигаться (вверх, вправо, вниз или влево). Выход на квадрат, который агент никогда раньше не посещал, дает награду 1....

253 просмотров

python machine-learning tensorflow reinforcement-learning q-learning

01.06.2024

Почему оценка (накопленная награда) снижается на этапе эксплуатации в этой модели глубокого Q-обучения?

Мне трудно заставить агента Deep Q-Learning найти оптимальную политику. Вот как моя текущая модель выглядит в TensorFlow: model = Sequential() model.add(Dense(units=32, activation="relu", input_dim=self.env.state.size)),...

29 просмотров

python tensorflow deep-learning neural-network q-learning

22.11.2022

DQN понимает ввод и вывод (уровень)

У меня вопрос о входе и выходе (слое) DQN. e.g Две точки: P1 (x1, y1) и P2 (x2, y2) P1 должен идти в сторону P2. У меня есть следующая информация: Текущая позиция P1 (x / y) Текущая позиция P2 (x / y) Расстояние до P1-P2 (x / y)...

293 просмотров

python deep-learning reinforcement-learning dqn q-learning

24.02.2024

Глубокое обучение с подкреплением - проблема CartPole

Я попытался реализовать самый простой алгоритм Deep Q Learning. Я думаю, что реализовал это правильно и знаю, что Deep Q Learning борется с расхождениями, но награда очень быстро уменьшается, а потери расходятся. Я был бы признателен, если бы...

113 просмотров

python pytorch deep-learning reinforcement-learning q-learning

03.08.2023

Публикации по теме 'q-learning'

Иерархическое обучение с подкреплением

Питер и волк: обучающее приключение с подкреплением

Вопросы по теме 'q-learning'

Похожие вопросы