我试图使用不同的数据源(例如: Zalando、Otto等)来模拟个人的购买行为。当我组合数据源时,我发现跨这些通道的数据是非常不同的。
例如,5%的用户使用特定的渠道购物,但不使用其他渠道。当我试图对这些信息进行建模时,它的性能很差,因为总的来说,它是一个稀疏的数据集,但是每列的一%应该是一个很好的预测器,可以预测一小部分人口。
我的问题是:如何组合/规范这样一个数据集,其中的数据是超级稀疏的?
发布于 2019-04-23 12:33:55
在合并数据集时,请确保列信息尽可能通用,这意味着:当您将A与B合并时,请确保将“在(任何)在线渠道上购买”而不是“在A的在线渠道上购买”和“在B的在线渠道上购买”命名为“购买”。
从完全不同的数据源合并数据集是非常困难的,因为它们不是用相同的基本思想来考虑的。
发布于 2019-09-20 15:19:42
我认为不可能合并它们并将数据规范化以重新平衡类。
以下是可能出现的问题的一个例子。
你有两个数据源,一个小的,大部分是男性,另一个更大,大部分是女性,你想把它们合并在一起。如果你知道人口分布,你可以随机抽样出一些例子。如果有很多不同的变量和/或不知道它们的分布,这就变得很困难。
您可以尝试的是查找不同数据源的大小(贸易用户、nb用户等),并在最终合并的数据集中尝试匹配此分布(较大的站点在合并数据集中的事件所占比例更大,因为它们可能代表人口的更大一部分)。
https://datascience.stackexchange.com/questions/49774
复制相似问题