Я работаю над управлением питанием системы. Целями, которые я стремлюсь минимизировать, являются энергопотребление и средняя задержка. У меня есть единственная целевая функция, имеющая линейно взвешенную сумму обеих целей:
C=w.P_avg+(1-w).L_avg, where w belongs to (0,1)
Я использую Q-обучение, чтобы найти парето-оптимальную кривую компромисса, варьируя вес w и устанавливая различные предпочтения для энергопотребления и средней задержки. Я получаю парето-оптимальную кривую. Моя цель сейчас состоит в том, чтобы предоставить ограничение (например, среднюю задержку L_avg) и, таким образом, настроить/найти значение w в соответствии с заданными критериями. У меня онлайн-алгоритм, поэтому настройка w должна происходить в онлайн-режиме.
Могу ли я получить какие-либо подсказки или предложения по этому поводу?