首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >训练和交叉验证数据模型的理想得分

训练和交叉验证数据模型的理想得分
EN

Data Science用户
提问于 2019-06-07 12:13:55
回答 1查看 183关注 0票数 0

这个问题有点宽泛,但我在任何地方都找不到具体的解释,所以决定问这里的专家。

我已经为二进制分类任务训练了一个分类器模型。现在我正试着微调模型。使用不同的超参数集,我在训练和测试集上得到了不同的精度。例如:

代码语言:javascript
复制
(1) Train set: 0.99 | Cross-validation set: 0.72
(2) Train set: 0.75 | Cross-validation set: 0.70
(3) Train set: 0.69 | Cross-validation set: 0.69

这些是近似的数字。但我的观点是--对于某些超参数,我获得了或多或少相似的简历准确性,而训练数据的准确性从超适合到不太适合。

我的问题是,这些模型中哪一个对未来的未见数据最有效?在这种情况下,我们应该选择训练精度较高或训练精度较低的模型,因为在上述所有情况下,CV精度都是相似的(实际上,CV分数在拟合模型中更好)?

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-06-07 14:17:21

训练数据的准确性基本上不算。我不想说忽略它,因为在我看来,100/70的火车/测试精度与71/70的火车/测试精度不同,但你对训练数据的性能不感兴趣。

使用测试集模拟机器学习的实际应用。想想Siri或者Alexa。我们的目标是预测那些它还没有听到的演讲。没有办法知道它将如何在这样的演讲,所以次-最好的方法是使用一些数据,在那里你知道答案,但隐藏它对你的模型。在您对模型进行培训之后,评估它在没有看到答案的数据上的表现。如果模型是准确的,那么这是一个很好的标志,它能够执行真正的语音识别任务。

训练数据就像练习题或家庭作业问题,而测试数据是考试。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/53385

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档