我正在研究一个系统的电源管理。我希望最小化的目标是功耗和平均延迟。我有一个单一的目标函数,它具有两个目标的线性加权和:
C=w.P_avg+(1-w).L_avg, where w belongs to (0,1)我正在使用Q-learning通过改变权重w并对功耗和平均延迟设置不同的偏好来找到一条pareto最优的权衡曲线。我确实得到了一条帕累托最优曲线。现在,我的目标是提供一个约束(例如,平均延迟L_avg),从而调整/找到w的值以满足给定的标准。我的是一个在线算法,所以w的调整应该以在线的方式进行。
在这方面,我能得到任何提示或建议吗?
发布于 2012-11-20 06:58:47
社区中有一个多目标强化学习分支。
理想化的是1
为每个目标分配一组智能体。将一个族中的智能体获得的解与其余族中的智能体获得的解进行比较。协商机制用于找到满足所有目标的折衷解决方案。
还有一篇你可能会感兴趣的论文:
电力系统调度和电压稳定的强化学习多目标优化。
不过,我没有找到它的公共url。
https://stackoverflow.com/questions/13343336
复制相似问题