您提到的数据每天都会添加。这在很大程度上与数据的结构有关，如果最近的数据比旧的数据更重要的话。从最近的数据中随机抽取样本可能更容易。但是，如果你正在查看所有的日期，你可以抽样不同的时期。但统计答案也与你所观察的变量有关。实际上，您可能希望从容易获得的“合理”行数开始，对缺少的值执行基本的EDA操作，比如确保您有一个最小的计数来执行类似回归的操作。然后，将数字增加到您感兴趣的所有变量的可识别分布所需的级别。在随机抽取样本时，您经常忽略的是异常值，因此询问业务人员对上、下区间的期望是什么总是很有用的。

票数 1

Data Science用户

发布于 2022-05-18 10:51:36

通常，操作数据子集比较容易，但为了获得有代表性的样本，采取随机抽样是很重要的。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/110979

复制

相似问题

问大型数据集上的探索性数据分析
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大型数据集上的探索性数据分析EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大型数据集上的探索性数据分析
EN