在过去的4-6周里,我第一次在ML上学习和工作.阅读博客、文章、文档等并练习。在这里也问了很多关于堆栈溢出的问题。
虽然我有一些亲身经验,但仍然有一个非常基本的疑问(困惑) --当我用1000条记录的输入数据时,模型预测的准确率是75%。当我保存50000张记录时,模型的准确率为65%。
1)这是否意味着该模型完全基于输入的i/p数据作出响应?
2)如果#1是真的,那么在我们无法控制输入数据的现实世界中,模型将如何工作?
例如。对于向客户推荐产品,模型的输入数据将是过去的客户购买体验。随着输入数据量的增加,预测精度会增加还是下降?
如果我需要在我的问题中补充更多细节,请告诉我。
谢谢。
编辑-1-以下添加的频率分布,我的输入数据:

编辑-2-添加混淆矩阵和分类报告:


发布于 2019-03-19 00:35:23
要回答第一个问题,模型的准确性在很大程度上取决于输入数据的“质量”。基本上,您的培训数据应该代表与最终模型部署环境相同的场景。
你提到的情况发生有两个可能的原因,
接下来是关于现实世界部署的第二个问题。有一种叫做模型损耗随时间变化的东西,它基本上就是随着时间的推移降低模型准确性的问题。这是谷歌( Google )一位产品经理的一篇文章,解释了陈腐问题以及如何解决这个问题。这将回答你的第二个问题。
如果有什么不清楚的话请告诉我。
发布于 2019-03-19 03:21:28
有一个错误的说法,即更多的数据意味着更好的分类。该模型还需要建立在其复杂性,否则,模型只是过分适合的数据。
从数据中只取几个随机样本是训练模型的最佳策略,而不是输入我们能找到的每一点数据。
https://datascience.stackexchange.com/questions/47565
复制相似问题