假设我创建了一个奖励fn。然后训练我的模型。然后,我克隆模型并对奖励fn进行更改。(让我们说奖励fn。B)并训练它。所以最终的模型也有从奖励fn中学习到的东西。A和B,或者它忘记了从fn中学习。A,并且只从奖励fn得到训练。B?
发布于 2020-02-23 07:29:03
根据文档https://docs.aws.amazon.com/deepracer/latest/developerguide/awsracerdg.pdf
克隆一个经过训练的模型,继续训练以提高性能。
它应该继续训练。我也试着克隆并继续使用不变的奖励函数,结果在开始时已经比第一次尝试好得多。
但我可以想象,如果你改变你的函数,后面训练的神经网络将随着每一集新的剧集越来越多地适应你的新奖励函数B。
https://stackoverflow.com/questions/58558168
复制相似问题