问模型本地化:一个大模型与两个小模型
EN

Data Science用户

提问于 2017-10-11 05:09:26

回答 1查看 1.3K关注 0票数 3

假设我想预测美国和加拿大的人一个月内购买A产品的可能性有多大。基本上，这是一个二元分类问题。

假设我有200万行历史数据，其中有购买/未购买该产品(标签)的人。数百万行数据来自美国，另一组来自加拿大。

我可以通过以下两种方法构建机器学习模型：

直觉地说，在我看来，选项1总是比2更好，因为在一个模型中会有更多的数据。但在实践中，选项2似乎总是比备选方案1表现得更好。

我的问题是什么时候我应该使用备选方案2而不是备选方案1？如何做出决定？

发布于 2017-10-11 12:15:41

何时以及如何选择1比2？数据探索，了解问题，并测试模型。确保您使用适合您的业务问题的度量、隔离级别和测试数据。

例如，如果美国和CA客户之间存在根本差异的话。然后，允许模型集中于每个国家的信号，而不处理另一个国家的噪音，可能会为每个国家产生一个更好的模型。通过进行数据探索(随着时间的推移，按国家来划分采购情况和其他一些重要特性)，您可能会让自己相信，测试多个模型是值得的。

这是建模的艺术和科学。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/23685

复制

相似问题

问模型本地化:一个大模型与两个小模型EN