我是一个机器学习领域的初学者,我有一些小小的疑问,但我没有找到任何合适的答案。如何选择预测未知数据的最佳模型。我学到了两种方法,我不知道哪一种是正确的。
通过将数据分割成训练和测试数据来说明、训练您的模型,然后对模型进行拟合以预测测试输出和错误,对数据进行洗牌,并将误差平均在大约100个或更多个周期内。这将给我们一个平均错误(rmse测试)超过100个周期(python随机状态)。现在要预测未知的数据(验证模型),我应该考虑哪个模型来进行预测。
1-使rmse更接近于平均rmse的模型:选择一个报告误差的模型,该模型报告的误差大约等于超过100个周期的平均误差,用于预测未知数据,并称之为预测模型,或
2-最佳性能:从100个模型中选择一个最适合预测未知数据的模型(最低的rmse用于测试)?
另一件我也在挣扎的事情是,如果把最小的误差模型作为未知数据预测的模型,通过保持X_train和y_train相同的最好的model.And,如果我在同一数据库中选择了超过400次的X_test和y_test (只有10%),并且预测了错误,它会不会是一个过度拟合的预测?
提前感谢
发布于 2018-04-14 07:53:47
如果您使用测试集来选择模型(不管您是使用某种随机状态,还是进行超参数调优),那么它是脏的,不能再用来预测预测性能。
您应该遵循的一般工作流程如下:
金科玉律是:如果使用测试集,就不能再更改模型了。你只有一次机会得分。
这就是为什么你在简历中再次把火车分开的原因。
https://datascience.stackexchange.com/questions/30296
复制相似问题