Многокритериальная оптимизация с обучением с подкреплением

Я работаю над управлением питанием системы. Целями, которые я стремлюсь минимизировать, являются энергопотребление и средняя задержка. У меня есть единственная целевая функция, имеющая линейно взвешенную сумму обеих целей:

C=w.P_avg+(1-w).L_avg,      where w belongs to (0,1)

Я использую Q-обучение, чтобы найти парето-оптимальную кривую компромисса, варьируя вес w и устанавливая различные предпочтения для энергопотребления и средней задержки. Я получаю парето-оптимальную кривую. Моя цель сейчас состоит в том, чтобы предоставить ограничение (например, среднюю задержку L_avg) и, таким образом, настроить/найти значение w в соответствии с заданными критериями. У меня онлайн-алгоритм, поэтому настройка w должна происходить в онлайн-режиме.

Могу ли я получить какие-либо подсказки или предложения по этому поводу?


person user846400    schedule 12.11.2012    source источник


Ответы (1)


В сообществе есть ветка многоцелевого обучения с подкреплением.

Идеал заключается в следующем:

назначить семейство агентов для каждой цели. Решения, полученные агентами одного семейства, сравниваются с решениями, полученными агентами остальных семейств. Механизм переговоров используется для поиска компромиссных решений, удовлетворяющих всем поставленным задачам.

Также есть статья, которая может быть вам интересна:

Многоцелевая оптимизация с помощью обучения с подкреплением для диспетчеризации энергосистемы и стабильности напряжения.

Однако я не нашел общедоступного URL-адреса для него.

person greeness    schedule 19.11.2012
comment
Спасибо за ваши предложения. Но рекомендуемые документы/методы с многоагентным RL предназначены для обучения вне политики или эпизодических задач. В моем случае у меня проблема с онлайн-обучением. - person user846400; 03.12.2012