我想在我已有的奖励分布中添加噪声。奖励分布应该以什么形式表示,以便大众理解,以及大众可以使用哪些方法来诱导噪声?例如,您可以考虑给定here的奖励分布
发布于 2021-03-21 02:29:55
奖励函数是一个好的强化学习算法的基础。在您的模拟中,奖励函数有助于奖励分布,因此向奖励分布添加噪声的一种方法可能是(考虑到本教程),修改成本函数以提供随机结果。因此,通过这种方式,您可以向分布中添加噪声。
https://stackoverflow.com/questions/65998326
复制相似问题