我试着训练一个深层强化学习模型--迷宫逃逸任务,每次都以一个图像作为输入(例如,一个不同的“迷宫”)。
假设我有大约10K不同的迷宫图像,理想的情况是,在训练N个迷宫之后,我的模型会做得很好,快速解决剩下的10K-N图像中的谜题。
我写信询问一些好的想法/经验的证据,如何选择一个好的N为训练任务。
总的来说,我应该如何评估和提高我的强化模型的“转移学习”能力?让它更一般化?
任何建议或建议都将不胜感激。谢谢。
发布于 2021-11-27 20:36:01
--首先,
我强烈建议您使用2D数组来绘制迷宫的地图,而不是图像,这将给您的模型带来巨大的帮助,因为是一种更多的特征提取方法。尝试使用二维数组,其中墙壁是由一个在零的地面上演示。
和寻找优化N:的方法
您的模型体系结构比所有数据中的培训数据或批处理大小的共享要重要得多。最好是建立一个设计良好的模型,然后通过测试不同的Ns来找出N的最优量(因为它只是一个变量,所以N的优化过程可以由您自己轻松地完成)。
https://stackoverflow.com/questions/56344773
复制相似问题