Многокритериальная оптимизация с обучением с подкреплением

Я работаю над управлением питанием системы. Целями, которые я стремлюсь минимизировать, являются энергопотребление и средняя задержка. У меня есть единственная целевая функция, имеющая линейно взвешенную сумму обеих целей:

C=w.P_avg+(1-w).L_avg,      where w belongs to (0,1)

Я использую Q-обучение, чтобы найти парето-оптимальную кривую компромисса, варьируя вес w и устанавливая различные предпочтения для энергопотребления и средней задержки. Я получаю парето-оптимальную кривую. Моя цель сейчас состоит в том, чтобы предоставить ограничение (например, среднюю задержку L_avg) и, таким образом, настроить/найти значение w в соответствии с заданными критериями. У меня онлайн-алгоритм, поэтому настройка w должна происходить в онлайн-режиме.

Могу ли я получить какие-либо подсказки или предложения по этому поводу?

machine-learning reinforcement-learning power-management

user846400 12.11.2012 источник

Ответы (1)

arrow_upward
2
arrow_downward

В сообществе есть ветка многоцелевого обучения с подкреплением.

Идеал заключается в следующем:

назначить семейство агентов для каждой цели. Решения, полученные агентами одного семейства, сравниваются с решениями, полученными агентами остальных семейств. Механизм переговоров используется для поиска компромиссных решений, удовлетворяющих всем поставленным задачам.

Также есть статья, которая может быть вам интересна:

Многоцелевая оптимизация с помощью обучения с подкреплением для диспетчеризации энергосистемы и стабильности напряжения.

Однако я не нашел общедоступного URL-адреса для него.

greeness 19.11.2012

comment

Спасибо за ваши предложения. Но рекомендуемые документы/методы с многоагентным RL предназначены для обучения вне политики или эпизодических задач. В моем случае у меня проблема с онлайн-обучением. - user846400; 03.12.2012

Многокритериальная оптимизация с обучением с подкреплением

Ответы (1)

Похожие вопросы