首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ML模型的输入数据有多重要?

ML模型的输入数据有多重要?
EN

Data Science用户
提问于 2019-03-18 22:31:37
回答 2查看 880关注 0票数 2

在过去的4-6周里,我第一次在ML上学习和工作.阅读博客、文章、文档等并练习。在这里也问了很多关于堆栈溢出的问题。

虽然我有一些亲身经验,但仍然有一个非常基本的疑问(困惑) --当我用1000条记录的输入数据时,模型预测的准确率是75%。当我保存50000张记录时,模型的准确率为65%。

1)这是否意味着该模型完全基于输入的i/p数据作出响应?

2)如果#1是真的,那么在我们无法控制输入数据的现实世界中,模型将如何工作?

例如。对于向客户推荐产品,模型的输入数据将是过去的客户购买体验。随着输入数据量的增加,预测精度会增加还是下降?

如果我需要在我的问题中补充更多细节,请告诉我。

谢谢。

编辑-1-以下添加的频率分布,我的输入数据:

编辑-2-添加混淆矩阵和分类报告:

EN

回答 2

Data Science用户

回答已采纳

发布于 2019-03-19 00:35:23

要回答第一个问题,模型的准确性在很大程度上取决于输入数据的“质量”。基本上,您的培训数据应该代表与最终模型部署环境相同的场景。

你提到的情况发生有两个可能的原因,

  1. 当您添加更多的数据时,可能在新示例的输入特性和标签之间没有很好的关系。人们总是说,少而干净的数据比大而混乱的数据更好。
  2. 如果之后添加的49000条记录来自同一组(即标签和特征之间有很好的关系),那么又有两个可能的原因。A.如果列车数据集的准确性与测试数据集一起很小。例如,训练的准确率是70%,测试的准确率是65%,那么你的数据就不合适了。模型非常复杂,从实例数量上看,数据集是很小的。如果你的训练准确率接近100%,测试的准确率为65%,那么你的数据就过份了。模型是复杂的,所以您应该使用一些简单的算法。注*由于你没有提到训练的准确性,很难说出上述两种情况中发生了什么。

接下来是关于现实世界部署的第二个问题。有一种叫做模型损耗随时间变化的东西,它基本上就是随着时间的推移降低模型准确性的问题。这是谷歌( Google )一位产品经理的一篇文章,解释了陈腐问题以及如何解决这个问题。这将回答你的第二个问题。

如果有什么不清楚的话请告诉我。

票数 3
EN

Data Science用户

发布于 2019-03-19 03:21:28

有一个错误的说法,即更多的数据意味着更好的分类。该模型还需要建立在其复杂性,否则,模型只是过分适合的数据。

从数据中只取几个随机样本是训练模型的最佳策略,而不是输入我们能找到的每一点数据。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/47565

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档