Я впервые использую rllib и пытаюсь обучить настраиваемую многоагентную среду RL, и хотел бы обучить на ней пару агентов PPO. Проблема с реализацией, которую мне нужно выяснить, заключается в том, как изменить обучение одного специального агента так, чтобы он выполнял действие только каждые X временных шагов. Лучше всего вызывать compute_action () только каждые X временных шагов? Или, на других шагах, чтобы замаскировать выбор политики, чтобы им пришлось повторно выбирать действие, пока не будет вызвано No-Op? Или изменить действие, которое передается в среду + предыдущие действия в обучающих пакетах, как No-Ops?
Какой самый простой способ реализовать это, по-прежнему используя возможности обучения rllib? Нужно ли мне создавать для этого собственный цикл обучения или есть способ настроить PPOTrainer для этого?
Спасибо