Публикации по теме 'openai-gym'


Обучение с подкреплением: следующий рубеж
Глубокое обучение за последние годы достигло многих вех — сверточные нейронные сети превзошли человеческие возможности в таких задачах, как обнаружение объектов и классификация изображений. Трансформеры обеспечивают потрясающие результаты в задачах на естественном языке. Хотя это выдающиеся достижения, эти методы страдают тем, что требуют большого количества размеченных обучающих наборов данных, которые часто трудно получить. Кроме того, люди не учатся таким образом. Обучение с..

Вопросы по теме 'openai-gym'

Кажется, установлены как NumPy 1.8.2, так и 1.10.4, а также проблемы совместимости между rllab и тренажерным залом OpenAI?
Я пытаюсь запустить среду OpenAI gym («тренажерный зал») на некотором коде обучения с подкреплением, который я нашел на github: https://github.com/rllab/rllab . Однако всякий раз, когда я импортирую тренажерный зал, я получаю сообщение об ошибке:...
411 просмотров
schedule 12.02.2023

Модель Q-обучения не улучшается
Я пытаюсь решить проблему с тележкой в ​​спортзале openAI. По Q обучения. Я думаю, что неправильно понял, как работает Q-обучение, поскольку моя модель не улучшается. Я использую словарь в качестве таблицы Q. Поэтому я "хеширую" (превращаю в...
183 просмотров

Как изменить пример A3C Tensorflow, чтобы играть в игры Atari?
Я следил за Tensorflow учебник , в котором реализован A3C, чтобы хорошо работать в среде тележки, и хотелось использовать его в качестве отправной точки для игрового бота для некоторых игр Atari. Однако, если я просто изменю среду, скажем, на...
129 просмотров

Как создать индивидуальную среду с использованием OpenAI Gym для обучения с подкреплением
Я новичок в обучении с подкреплением, работаю над проектом в колледже. Проект связан с оптимизацией мощности оборудования x86. Я использую проприетарное программное обеспечение в дистрибутиве Linux (16.04). Цель состоит в том, чтобы использовать...
1467 просмотров

Обучение с подкреплением в Python - пространство наблюдения кортежей
Я создал индивидуальную среду тренажерного зала openai с дискретным пространством действий и несколько сложным пространством состояний. Пространство состояний было определено как кортеж, потому что оно объединяет одни измерения, которые являются...
1532 просмотров

Пики в журналах Tensorboard — стабильные базовые показатели PPO2
Python3.7 — тензорный поток 1.14.0 Я использую пользовательскую среду тренажерного зала, используя стабильную базовую модель PPO2 с MlpLstmPolicy в качестве политики. После обучения модели я просмотрел логи Tensorboard. На вкладках «Ввод» и...
356 просмотров

Есть ли реализация GPT-2, которая позволяет мне выполнять точную настройку и запрашивать завершение текста?
Я хочу настроить реализацию GPT-2 на некоторых текстовых данных. Затем я хочу использовать эту модель для заполнения текстовой подсказки. Я могу сделать первую часть достаточно легко, используя реализацию Макса Вулфа gpt-2-simple . И форк Нила...
1027 просмотров

OpenAI Gym: пройдитесь по всем возможным действиям в пространстве действий
Я хочу создать подход грубой силы, который проверяет все действия в пространстве действий Gym, прежде чем выбрать лучшее. Есть ли простой и прямой способ получить все возможные действия? В частности, мое пространство действия import gym...
957 просмотров
schedule 12.12.2023