我正在处理大量数据(我们有一个每天生成3000万行的表)。探索它的最好方法是什么(在EDA上做)?随机对数据进行摩擦切片(100000行),或从整个数据集中选择前100000行,还是应该获取所有数据集?
谢谢!
发布于 2022-05-19 21:48:27
您提到的数据每天都会添加。这在很大程度上与数据的结构有关,如果最近的数据比旧的数据更重要的话。从最近的数据中随机抽取样本可能更容易。但是,如果你正在查看所有的日期,你可以抽样不同的时期。但统计答案也与你所观察的变量有关。实际上,您可能希望从容易获得的“合理”行数开始,对缺少的值执行基本的EDA操作,比如确保您有一个最小的计数来执行类似回归的操作。然后,将数字增加到您感兴趣的所有变量的可识别分布所需的级别。在随机抽取样本时,您经常忽略的是异常值,因此询问业务人员对上、下区间的期望是什么总是很有用的。
发布于 2022-05-18 10:51:36
通常,操作数据子集比较容易,但为了获得有代表性的样本,采取随机抽样是很重要的。
https://datascience.stackexchange.com/questions/110979
复制相似问题