因此,我尝试在我的训练集上执行4次交叉验证。我已经将我的训练数据分为四个季度。我使用四分之三用于训练,四分之一用于验证。我再重复三次,直到所有的季度都有机会成为验证集,至少一次。
现在,经过训练,我有了四个咖啡因模型。我在我的验证集上测试模型。我在每种情况下都得到了不同的准确性。我该如何从这里开始呢?我应该选择精度最高的模型吗?
发布于 2016-08-12 18:22:32
也许这是一个迟来的回复,但无论如何……简短的答案是,如果四个模型的性能相似且足够好,那么您可以根据所有可用的数据重新训练模型,因为您不想浪费其中的任何一个。
N-折交叉验证是一种实用的技术,可以在您没有大量数据的情况下,对您试图训练的模型的学习和泛化属性获得一些见解。你可以在网络上到处找到细节,但我推荐开源书籍Introduction to Statistical Learning,第5章。
一般规则是,在训练n个模型后,对预测误差(MSE、准确度等)进行平均,以获得该特定模型(在您的情况下,可能是网络体系结构和学习策略)在该数据集上的性能的大致概念。主要思想是评估在训练拆分中学习的模型,检查它们在验证集上是否具有可接受的性能。如果不是这样,那么你的模型可能过度拟合了训练数据。如果训练和验证分离的误差都很高,那么应该重新考虑模型,因为它们没有预测能力。
在任何情况下,我也会考虑advice of Yoshua Bengio,他说对于深度学习所针对的那种问题,你通常有足够的数据来简单地进行训练/测试分离。在这种情况下,this answer on Stackoverflow 可能对您有用。
https://stackoverflow.com/questions/33833100
复制相似问题