首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >机器学习的最佳模型

机器学习的最佳模型
EN

Data Science用户
提问于 2018-04-14 04:16:25
回答 1查看 186关注 0票数 1

我是一个机器学习领域的初学者,我有一些小小的疑问,但我没有找到任何合适的答案。如何选择预测未知数据的最佳模型。我学到了两种方法,我不知道哪一种是正确的。

通过将数据分割成训练和测试数据来说明、训练您的模型,然后对模型进行拟合以预测测试输出和错误,对数据进行洗牌,并将误差平均在大约100个或更多个周期内。这将给我们一个平均错误(rmse测试)超过100个周期(python随机状态)。现在要预测未知的数据(验证模型),我应该考虑哪个模型来进行预测。

1-使rmse更接近于平均rmse的模型:选择一个报告误差的模型,该模型报告的误差大约等于超过100个周期的平均误差,用于预测未知数据,并称之为预测模型,或

2-最佳性能:从100个模型中选择一个最适合预测未知数据的模型(最低的rmse用于测试)?

另一件我也在挣扎的事情是,如果把最小的误差模型作为未知数据预测的模型,通过保持X_train和y_train相同的最好的model.And,如果我在同一数据库中选择了超过400次的X_test和y_test (只有10%),并且预测了错误,它会不会是一个过度拟合的预测?

提前感谢

EN

回答 1

Data Science用户

发布于 2018-04-14 07:53:47

如果您使用测试集来选择模型(不管您是使用某种随机状态,还是进行超参数调优),那么它是脏的,不能再用来预测预测性能。

您应该遵循的一般工作流程如下:

  1. 分成火车和测试。把“测试”锁在保险箱里。
  2. 仅在火车组上使用交叉验证来调整参数。
  3. 将超参数修正到找到的最佳设置。把它们用黑体字写成“最终参数”,写在墙上的石板上。
  4. 使用这些参数在整个训练集上训练一个新的分类器
  5. 从安全库中获取测试集,并在测试集中精确地运行分类器一次,以预测分类器在未来的工作情况。
  6. 如果结果远比2:恐慌的结果更糟糕的话。不会有效果的。
  7. 可选:如果您确信超参数不依赖于数据大小,而是需要每一点训练数据,那么您可以在train+test上使用内置参数来训练分类器。这是有风险的,A你没有测试集了。
  8. 部署,但是监视它的性能确实和预期的一样好。

金科玉律是:如果使用测试集,就不能再更改模型了。你只有一次机会得分。

这就是为什么你在简历中再次把火车分开的原因。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/30296

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档