文章/答案/技术大牛

发布

社区首页 >问答首页 >ML模型的输入数据有多重要？

问ML模型的输入数据有多重要？
EN

Data Science用户

提问于 2019-03-18 22:31:37

回答 2查看 880关注 0票数 2

在过去的4-6周里，我第一次在ML上学习和工作.阅读博客、文章、文档等并练习。在这里也问了很多关于堆栈溢出的问题。

虽然我有一些亲身经验，但仍然有一个非常基本的疑问(困惑) --当我用1000条记录的输入数据时，模型预测的准确率是75%。当我保存50000张记录时，模型的准确率为65%。

1)这是否意味着该模型完全基于输入的i/p数据作出响应？

2)如果#1是真的，那么在我们无法控制输入数据的现实世界中，模型将如何工作？

例如。对于向客户推荐产品，模型的输入数据将是过去的客户购买体验。随着输入数据量的增加，预测精度会增加还是下降？

如果我需要在我的问题中补充更多细节，请告诉我。

谢谢。

编辑-1-以下添加的频率分布，我的输入数据：

编辑-2-添加混淆矩阵和分类报告：

machine-learning-model

machine-learning

predictive-modeling

回答 2

Data Science用户

回答已采纳

发布于 2019-03-19 00:35:23

要回答第一个问题，模型的准确性在很大程度上取决于输入数据的“质量”。基本上，您的培训数据应该代表与最终模型部署环境相同的场景。

你提到的情况发生有两个可能的原因，

当您添加更多的数据时，可能在新示例的输入特性和标签之间没有很好的关系。人们总是说，少而干净的数据比大而混乱的数据更好。
如果之后添加的49000条记录来自同一组(即标签和特征之间有很好的关系)，那么又有两个可能的原因。A.如果列车数据集的准确性与测试数据集一起很小。例如，训练的准确率是70%，测试的准确率是65%，那么你的数据就不合适了。模型非常复杂，从实例数量上看，数据集是很小的。如果你的训练准确率接近100%，测试的准确率为65%，那么你的数据就过份了。模型是复杂的，所以您应该使用一些简单的算法。注*由于你没有提到训练的准确性，很难说出上述两种情况中发生了什么。

接下来是关于现实世界部署的第二个问题。有一种叫做模型损耗随时间变化的东西，它基本上就是随着时间的推移降低模型准确性的问题。这是谷歌( Google )一位产品经理的一篇文章，解释了陈腐问题以及如何解决这个问题。这将回答你的第二个问题。

如果有什么不清楚的话请告诉我。

票数 3

Data Science用户

发布于 2019-03-19 03:21:28

有一个错误的说法，即更多的数据意味着更好的分类。该模型还需要建立在其复杂性，否则，模型只是过分适合的数据。

从数据中只取几个随机样本是训练模型的最佳策略，而不是输入我们能找到的每一点数据。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/47565

复制

相似问题

问ML模型的输入数据有多重要？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ML模型的输入数据有多重要？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ML模型的输入数据有多重要？
EN