非常感谢您在这方面的投入。在遗传编程的帮助下,我正在构建一个回归模型。
如果对于1:5的数据比率,我的测试数据的RMSE比我的训练数据的RMSE低(很多),我应该担心吗?
测试数据是从一组24个数据点中随机抽取的,没有替换。该模型是使用遗传编程技术建立的,因此当我最小化由GP树中的节点数量正则化的训练RMSE时,特征的数量、建模框架等都会发生变化。
模型是不是不适合?或者我应该最小化MSE而不是RMSE (我认为这与MSE为正是相同的,并且假设优化器足够好,可以找到最小值,那么MSE的最小值将与RMSE的最小值一致)?
Tks
发布于 2012-07-16 17:49:49
那么,您的模型在24个数据点中的20个上进行了训练,并在其余4个数据点上进行了测试?
对我来说,听起来你需要(更多)更多的数据,所以你可以有更大的训练和测试集。我对你的测试集上的低性能并不感到惊讶,因为你的模型似乎不能从这么少的数据中学习。作为一条经验法则,对于机器学习来说,你永远不会有足够的数据。是否有可能收集更大的数据集?
https://stackoverflow.com/questions/11501240
复制相似问题