首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >大型数据集上的探索性数据分析

大型数据集上的探索性数据分析
EN

Data Science用户
提问于 2022-05-16 08:25:09
回答 2查看 1.1K关注 0票数 0

我正在处理大量数据(我们有一个每天生成3000万行的表)。探索它的最好方法是什么(在EDA上做)?随机对数据进行摩擦切片(100000行),或从整个数据集中选择前100000行,还是应该获取所有数据集?

谢谢!

EN

回答 2

Data Science用户

回答已采纳

发布于 2022-05-19 21:48:27

您提到的数据每天都会添加。这在很大程度上与数据的结构有关,如果最近的数据比旧的数据更重要的话。从最近的数据中随机抽取样本可能更容易。但是,如果你正在查看所有的日期,你可以抽样不同的时期。但统计答案也与你所观察的变量有关。实际上,您可能希望从容易获得的“合理”行数开始,对缺少的值执行基本的EDA操作,比如确保您有一个最小的计数来执行类似回归的操作。然后,将数字增加到您感兴趣的所有变量的可识别分布所需的级别。在随机抽取样本时,您经常忽略的是异常值,因此询问业务人员对上、下区间的期望是什么总是很有用的。

票数 1
EN

Data Science用户

发布于 2022-05-18 10:51:36

通常,操作数据子集比较容易,但为了获得有代表性的样本,采取随机抽样是很重要的。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/110979

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档