文章/答案/技术大牛

发布

社区首页 >问答首页 >如何规范来自多个来源的数据？

问如何规范来自多个来源的数据？
EN

Data Science用户

提问于 2019-04-23 11:53:15

回答 2查看 1.3K关注 0票数 3

我试图使用不同的数据源(例如: Zalando、Otto等)来模拟个人的购买行为。当我组合数据源时，我发现跨这些通道的数据是非常不同的。

例如，5%的用户使用特定的渠道购物，但不使用其他渠道。当我试图对这些信息进行建模时，它的性能很差，因为总的来说，它是一个稀疏的数据集，但是每列的一%应该是一个很好的预测器，可以预测一小部分人口。

我的问题是:如何组合/规范这样一个数据集，其中的数据是超级稀疏的？

predictive-modeling

data-cleaning

normalization

回答 2

Data Science用户

发布于 2019-04-23 12:33:55

在合并数据集时，请确保列信息尽可能通用，这意味着:当您将A与B合并时，请确保将“在(任何)在线渠道上购买”而不是“在A的在线渠道上购买”和“在B的在线渠道上购买”命名为“购买”。

从完全不同的数据源合并数据集是非常困难的，因为它们不是用相同的基本思想来考虑的。

票数 1

Data Science用户

发布于 2019-09-20 15:19:42

我认为不可能合并它们并将数据规范化以重新平衡类。

以下是可能出现的问题的一个例子。

你有两个数据源，一个小的，大部分是男性，另一个更大，大部分是女性，你想把它们合并在一起。如果你知道人口分布，你可以随机抽样出一些例子。如果有很多不同的变量和/或不知道它们的分布，这就变得很困难。

您可以尝试的是查找不同数据源的大小(贸易用户、nb用户等)，并在最终合并的数据集中尝试匹配此分布(较大的站点在合并数据集中的事件所占比例更大，因为它们可能代表人口的更大一部分)。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/49774

复制

相似问题

问如何规范来自多个来源的数据？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何规范来自多个来源的数据？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何规范来自多个来源的数据？
EN