我和一位同事正在研究一个混乱的模型,结果陷入了僵局:
我们的数据集是用于全球产品的。我们被要求只看美国市场。
当我们只将数据子集到美国时,分类器的评估指标比使用全局数据集时要低。
我的同事希望使用全局数据集,因为输出指标更高。我认为这样做是错误的,我们应该把数据限制在美国市场上。
我的想法是:只使用最能代表你想要探索的情况的数据集。也就是说,我们应该只使用过滤到美国市场的数据集。
当我们在这里处理人类购物者的行为时,可能会有许多来自市场的本地化因素--从市场文化、工资、购物者行为、本地化竞争对手。
使用过滤数据集的方法正确吗?有类似于这一点的文件吗?谷歌搜索有什么有用的术语吗?
发布于 2022-08-23 11:10:52
你可以认为它是一个超参数,并将其置于最佳值。
正如你所指出的,有多种可能性。你只使用最具代表性数据的立场是有价值的;使用所有可用数据的立场是有价值的,因为更多的数据会导致更严格的估计,没有什么能说明美国人必须如此独特。
因此,去找出哪种方法能得到最好的结果。
早期的证据表明,使用更多的数据可以获得更好的性能。
https://datascience.stackexchange.com/questions/113772
复制相似问题