Публикации по теме 'q-learning'
Иерархическое обучение с подкреплением
С фреймворком Options-Critic с использованием табличного Q-Learning
Иерархическое обучение с подкреплением разбивает долгосрочный процесс принятия решений на более простые подзадачи. Эта идея очень похожа на разбиение большого количества строк кода на более мелкие функции, каждая из которых выполняет очень специфическую задачу.
Давайте рассмотрим пример. Предположим, агент должен убрать или накрыть обеденный стол. Это включает в себя задачу достижения и захвата тарелок. Это задачи..
Питер и волк: обучающее приключение с подкреплением
Введение
Добро пожаловать в увлекательное путешествие в мир Reinforcement Learning (RL)! В этом уроке мы рассмотрим, как можно применить RL к задаче поиска пути, вдохновленной знаменитой музыкальной сказкой «Петя и волк», написанной Сергеем Прокофьевым. Присоединяйтесь к нам, пока мы обучаем алгоритмы машинного обучения, чтобы помочь Петру, отважному юному первопроходцу, исследовать лес и построить оптимальную навигационную карту.
Сеттинг: Мир Питера
В нашем сценарии мир Питера..
Вопросы по теме 'q-learning'
Q-обучение против временной разницы против обучения с подкреплением на основе моделей
Я учусь на курсе под названием «Интеллектуальные машины» в университете. Нас познакомили с 3 методами усиленного обучения, и с ними нам дали интуицию, когда их использовать, и я цитирую:
Q-Learning — лучше всего, когда MDP не может быть решен....
16999 просмотров
schedule
20.10.2023
Q Коэффициенты обучения переполняются
Я использовал задание «черный ящик» (www.blackboxchallenge.com), чтобы попробовать научиться чему-то с подкреплением.
Я создал задачу и среду для задачи и использую PyBrain для обучения на основе среды черного ящика. Резюме среды заключается в...
469 просмотров
schedule
15.07.2022
Это правильная реализация Q-Learning for Checkers?
Я пытаюсь понять Q-Learning ,
Мой текущий алгоритм работает следующим образом:
1. Ведется справочная таблица, которая сопоставляет состояние с информацией о его немедленном вознаграждении и полезности для каждого доступного действия....
912 просмотров
schedule
20.04.2023
приоритетное воспроизведение опыта в глубоком Q-обучении
я реализовал DQN в проблеме с горным автомобилем в спортзале openai. эта проблема особенная, поскольку положительное вознаграждение очень редкое. поэтому я подумал о реализации воспроизведения приоритетного опыта, как это предлагается в этой...
2891 просмотров
schedule
04.09.2022
Почему DQN дает одинаковые значения всем действиям в пространстве действий (2) для всех наблюдений?
У меня есть алгоритм DQN, который обучается (потери сходятся к 0), но, к сожалению, он изучает функцию значения Q, так что оба значения Q для каждого из 2 возможных действий очень похожи. Стоит отметить, что значения Q меняются очень незначительно...
1339 просмотров
schedule
26.05.2023
Представление состояния для мира сетки
Я новичок в обучении с подкреплением и q-обучении, и я пытаюсь понять концепции и попытаться их реализовать. Большинство материалов, которые я нашел, используют слои CNN для обработки ввода изображения. Я думаю, что лучше начать с чего-то более...
610 просмотров
schedule
07.02.2023
DQN - Q-Loss не сходится
Я использую алгоритм DQN для обучения агента в своей среде, который выглядит следующим образом:
Агент управляет автомобилем, выбирая дискретные действия (влево, вправо, вверх, вниз).
Цель - проехать с желаемой скоростью, не врезаясь в другие...
12633 просмотров
schedule
06.07.2023
Количество значений Q для сети глубокого обучения с подкреплением
В настоящее время я разрабатываю сеть глубокого обучения с подкреплением, однако у меня есть небольшие сомнения относительно количества q-значений, которые я получу на выходе NN. Всего у меня будет 150 q-значений, что лично мне кажется избыточным. Я...
62 просмотров
schedule
23.08.2023
Модель Q-обучения не улучшается
Я пытаюсь решить проблему с тележкой в спортзале openAI. По Q обучения. Я думаю, что неправильно понял, как работает Q-обучение, поскольку моя модель не улучшается.
Я использую словарь в качестве таблицы Q. Поэтому я "хеширую" (превращаю в...
183 просмотров
schedule
12.04.2023
tf.losses.mean_squared_error с отрицательной целью
Я использую Q-обучение и хочу знать, могу ли я использовать функцию расчета потерь tf.losses.mean_squared_error, если у меня есть функция вознаграждения, которая может давать отрицательные вознаграждения.
Потому что, если у меня есть, например, в...
919 просмотров
schedule
04.11.2023
Сеть Deep Q дает те же значения Q и не улучшается
Я пытаюсь построить глубокую сеть Q, чтобы играть в змею. Я столкнулся с проблемой, когда агент не обучается, и его производительность в конце цикла обучения заключается в многократном самоуничтожении. После небольшой отладки я понял, что значения...
249 просмотров
schedule
19.09.2023
Создайте конкретный тензор из другого тензора
q_pred = self.Q.forward(states) дает мне следующий результат:
tensor([[-4.4713e-02, 4.2878e-03],
[-2.2801e-01, 2.2295e-01],
[-9.8098e-03, -1.0766e-01],
[-1.4654e-01, 1.2742e-01],
[-1.6224e-01, 1.6565e-01],...
59 просмотров
schedule
17.07.2023
Q-значения становятся слишком высокими, значения становятся NaN, Q-Learning Tensorflow
Я запрограммировал очень простую игру, которая работает следующим образом:
Имея поле 4x4 квадратов, игрок может двигаться (вверх, вправо, вниз или влево).
Выход на квадрат, который агент никогда раньше не посещал, дает награду 1....
253 просмотров
schedule
01.06.2024
Почему оценка (накопленная награда) снижается на этапе эксплуатации в этой модели глубокого Q-обучения?
Мне трудно заставить агента Deep Q-Learning найти оптимальную политику. Вот как моя текущая модель выглядит в TensorFlow:
model = Sequential()
model.add(Dense(units=32, activation="relu", input_dim=self.env.state.size)),...
29 просмотров
schedule
22.11.2022
DQN понимает ввод и вывод (уровень)
У меня вопрос о входе и выходе (слое) DQN.
e.g
Две точки: P1 (x1, y1) и P2 (x2, y2)
P1 должен идти в сторону P2.
У меня есть следующая информация:
Текущая позиция P1 (x / y)
Текущая позиция P2 (x / y)
Расстояние до P1-P2 (x / y)...
293 просмотров
schedule
24.02.2024
Глубокое обучение с подкреплением - проблема CartPole
Я попытался реализовать самый простой алгоритм Deep Q Learning. Я думаю, что реализовал это правильно и знаю, что Deep Q Learning борется с расхождениями, но награда очень быстро уменьшается, а потери расходятся. Я был бы признателен, если бы...
113 просмотров
schedule
03.08.2023