假设我想预测美国和加拿大的人一个月内购买A产品的可能性有多大。基本上,这是一个二元分类问题。
假设我有200万行历史数据,其中有购买/未购买该产品(标签)的人。数百万行数据来自美国,另一组来自加拿大。
我可以通过以下两种方法构建机器学习模型:
直觉地说,在我看来,选项1总是比2更好,因为在一个模型中会有更多的数据。但在实践中,选项2似乎总是比备选方案1表现得更好。
我的问题是什么时候我应该使用备选方案2而不是备选方案1?如何做出决定?
发布于 2017-10-11 12:15:41
何时以及如何选择1比2?数据探索,了解问题,并测试模型。确保您使用适合您的业务问题的度量、隔离级别和测试数据。
例如,如果美国和CA客户之间存在根本差异的话。然后,允许模型集中于每个国家的信号,而不处理另一个国家的噪音,可能会为每个国家产生一个更好的模型。通过进行数据探索(随着时间的推移,按国家来划分采购情况和其他一些重要特性),您可能会让自己相信,测试多个模型是值得的。
这是建模的艺术和科学。
https://datascience.stackexchange.com/questions/23685
复制相似问题