我问了这个关于人工智能的问题,但没有得到答案,所以我把它移到了这里。
我有两个信号,我想用它来为一个强化学习算法建立一个奖励。
第一个是CPU时间:从这个图表中运行意味着:

第二个是图中最大残差的运行平均值:

这两种信号同样重要,但它们的尺度却大不相同。我可以像这样线性地把信号组合起来:
其中,r是奖励函数,\tau是CPU时间:运行均值,\rho是最大残差。问题是,如果w_\tau,w_\rho和\tau在非常不同的尺度上,如何设置权重\rho来做出同样重要的贡献?
强化学习算法将学习基于奖励的策略,如果一个信号的值比另一个小得多,它对奖励的影响就会小得多,这不是我想要建模的行为。
编辑:关于Kaggle的数据集
编辑:佩德罗的评论
对于缩放的平均CPU时间(平均消除振荡)和缩放的最大残差,信号的线性组合似乎是可能的:

发布于 2020-08-13 07:51:47
使用z-规范化可以确保它们具有相同的均值和标准差,但由于均值和标准差取决于数据的分布,所以它们的值当然会有所不同。
另一种方法是使用特征缩放,对这两个信号都强制使用0到1之间的值。
https://datascience.stackexchange.com/questions/80206
复制相似问题