首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >模型本地化:一个大模型与两个小模型

模型本地化:一个大模型与两个小模型
EN

Data Science用户
提问于 2017-10-11 05:09:26
回答 1查看 1.3K关注 0票数 3

假设我想预测美国和加拿大的人一个月内购买A产品的可能性有多大。基本上,这是一个二元分类问题。

假设我有200万行历史数据,其中有购买/未购买该产品(标签)的人。数百万行数据来自美国,另一组来自加拿大。

我可以通过以下两种方法构建机器学习模型:

  1. 用200万行数据构建一个模型。一个有所有数据的模型。
  2. 模型本地化:使用美国数据构建模型。使用加拿大数据构建另一个模型。

直觉地说,在我看来,选项1总是比2更好,因为在一个模型中会有更多的数据。但在实践中,选项2似乎总是比备选方案1表现得更好。

我的问题是什么时候我应该使用备选方案2而不是备选方案1?如何做出决定?

EN

回答 1

Data Science用户

发布于 2017-10-11 12:15:41

何时以及如何选择1比2?数据探索,了解问题,并测试模型。确保您使用适合您的业务问题的度量、隔离级别和测试数据。

例如,如果美国和CA客户之间存在根本差异的话。然后,允许模型集中于每个国家的信号,而不处理另一个国家的噪音,可能会为每个国家产生一个更好的模型。通过进行数据探索(随着时间的推移,按国家来划分采购情况和其他一些重要特性),您可能会让自己相信,测试多个模型是值得的。

这是建模的艺术和科学。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/23685

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档