首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何将两个不同规模但同样重要的“运行”信号组合成一个奖励函数?

如何将两个不同规模但同样重要的“运行”信号组合成一个奖励函数?
EN

Data Science用户
提问于 2020-08-13 07:18:45
回答 1查看 116关注 0票数 1

我问了这个关于人工智能的问题,但没有得到答案,所以我把它移到了这里。

我有两个信号,我想用它来为一个强化学习算法建立一个奖励。

第一个是CPU时间:从这个图表中运行意味着:

第二个是图中最大残差的运行平均值:

这两种信号同样重要,但它们的尺度却大不相同。我可以像这样线性地把信号组合起来:

r = w_\rho \rho + w_\tau \tau

其中,r是奖励函数,\tau是CPU时间:运行均值,\rho是最大残差。问题是,如果w_\tau,w_\rho\tau在非常不同的尺度上,如何设置权重\rho来做出同样重要的贡献?

强化学习算法将学习基于奖励的策略,如果一个信号的值比另一个小得多,它对奖励的影响就会小得多,这不是我想要建模的行为。

编辑:关于Kaggle的数据集

编辑:佩德罗的评论

对于缩放的平均CPU时间(平均消除振荡)和缩放的最大残差,信号的线性组合似乎是可能的:

EN

回答 1

Data Science用户

发布于 2020-08-13 07:51:47

使用z-规范化可以确保它们具有相同的均值和标准差,但由于均值和标准差取决于数据的分布,所以它们的值当然会有所不同。

另一种方法是使用特征缩放,对这两个信号都强制使用0到1之间的值。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/80206

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档