文章/答案/技术大牛

发布

问机器学习的最佳模型
EN

Data Science用户

提问于 2018-04-14 04:16:25

回答 1查看 186关注 0票数 1

我是一个机器学习领域的初学者，我有一些小小的疑问，但我没有找到任何合适的答案。如何选择预测未知数据的最佳模型。我学到了两种方法，我不知道哪一种是正确的。

通过将数据分割成训练和测试数据来说明、训练您的模型，然后对模型进行拟合以预测测试输出和错误，对数据进行洗牌，并将误差平均在大约100个或更多个周期内。这将给我们一个平均错误(rmse测试)超过100个周期(python随机状态)。现在要预测未知的数据(验证模型)，我应该考虑哪个模型来进行预测。

1-使rmse更接近于平均rmse的模型:选择一个报告误差的模型，该模型报告的误差大约等于超过100个周期的平均误差，用于预测未知数据，并称之为预测模型，或

2-最佳性能:从100个模型中选择一个最适合预测未知数据的模型(最低的rmse用于测试)？

另一件我也在挣扎的事情是，如果把最小的误差模型作为未知数据预测的模型，通过保持X_train和y_train相同的最好的model.And，如果我在同一数据库中选择了超过400次的X_test和y_test (只有10%)，并且预测了错误，它会不会是一个过度拟合的预测？

提前感谢

machine-learning

classification

scikit-learn

tensorflow

regression

回答 1

Data Science用户

发布于 2018-04-14 07:53:47

如果您使用测试集来选择模型(不管您是使用某种随机状态，还是进行超参数调优)，那么它是脏的，不能再用来预测预测性能。

您应该遵循的一般工作流程如下：

分成火车和测试。把“测试”锁在保险箱里。
仅在火车组上使用交叉验证来调整参数。
将超参数修正到找到的最佳设置。把它们用黑体字写成“最终参数”，写在墙上的石板上。
使用这些参数在整个训练集上训练一个新的分类器
从安全库中获取测试集，并在测试集中精确地运行分类器一次，以预测分类器在未来的工作情况。
如果结果远比2:恐慌的结果更糟糕的话。不会有效果的。
可选:如果您确信超参数不依赖于数据大小，而是需要每一点训练数据，那么您可以在train+test上使用内置参数来训练分类器。这是有风险的，A你没有测试集了。
部署，但是监视它的性能确实和预期的一样好。

金科玉律是:如果使用测试集，就不能再更改模型了。你只有一次机会得分。

这就是为什么你在简历中再次把火车分开的原因。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/30296

复制

相似问题

问机器学习的最佳模型
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习的最佳模型EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习的最佳模型
EN