文章/答案/技术大牛

发布

社区首页 >问答首页 >更有代表性的数据集还是更高的模型评价指标？

问更有代表性的数据集还是更高的模型评价指标？
EN

Data Science用户

提问于 2022-08-23 10:27:51

回答 1查看 66关注 0票数 1

我和一位同事正在研究一个混乱的模型，结果陷入了僵局：

我们的数据集是用于全球产品的。我们被要求只看美国市场。

当我们只将数据子集到美国时，分类器的评估指标比使用全局数据集时要低。

我的同事希望使用全局数据集，因为输出指标更高。我认为这样做是错误的，我们应该把数据限制在美国市场上。

我的想法是:只使用最能代表你想要探索的情况的数据集。也就是说，我们应该只使用过滤到美国市场的数据集。

当我们在这里处理人类购物者的行为时，可能会有许多来自市场的本地化因素--从市场文化、工资、购物者行为、本地化竞争对手。

使用过滤数据集的方法正确吗？有类似于这一点的文件吗？谷歌搜索有什么有用的术语吗？

classification

dataset

data

churn

回答 1

Data Science用户

发布于 2022-08-23 11:10:52

你可以认为它是一个超参数，并将其置于最佳值。

正如你所指出的，有多种可能性。你只使用最具代表性数据的立场是有价值的；使用所有可用数据的立场是有价值的，因为更多的数据会导致更严格的估计，没有什么能说明美国人必须如此独特。

因此，去找出哪种方法能得到最好的结果。

早期的证据表明，使用更多的数据可以获得更好的性能。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/113772

复制

相似问题

问更有代表性的数据集还是更高的模型评价指标？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问更有代表性的数据集还是更高的模型评价指标？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问更有代表性的数据集还是更高的模型评价指标？
EN