首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >大数据和小数据的优缺点?

大数据和小数据的优缺点?
EN

Stack Overflow用户
提问于 2017-10-11 10:16:42
回答 1查看 847关注 0票数 1

我在寻找更深入的答案。我知道基础知识--小数据分析起来更快,使用大数据你会有更多的能力,等等。但我想知道更多(也许是关于因果推断?)关于每种方法的优点和缺点。谢谢!

EN

回答 1

Stack Overflow用户

发布于 2018-05-08 21:29:52

大数据往往比小数据更可取,因为你拥有的样本越大,你的估计就越精确。小数据有几个好处。例如,使用小数据比使用大数据更容易实现可视化、检查和了解数据中发生的事情。如果你有20000个观察值和50个变量,那么手动查看数据并不容易,可以说,2个变量的10个观察值要容易得多。此外,如果数据集非常大,许多统计方法可能会崩溃,因为它们需要花费太长的时间才能使其变得合理。

另一方面,较小的数据集将导致您的估计精度较低,功率较低,并且有更大的风险,即比较组在一些重要的背景特征上偶然不同,这使得组之间的比较不公平,即使数据来自随机试验。对我来说,这些缺点超过了拥有一个小数据集的好处。

此外,如果您有一个大型数据集,则评估模型会更容易,因为您可以将数据拆分为训练集和评估集。这意味着您可以在未用于估计其参数的数据上测试您的模型。如果你的数据集很小,这可能是不可能的,因为每个观察值对于参数的估计都很重要。保留一次交叉验证是一种选择,但测试之间会有很高的依赖性。

从因果推断的角度来看,这也是一个数据是如何生成的问题。非常大的数据往往是观察性的(例如,寄存器),因此通常存在与非随机化研究相关的问题,特别是混杂(即,如果不对混杂因素进行调整,治疗组和对照组的结果不具有可比性)。这并不是说来自实验研究的数据没有问题,或者观测数据是无用的(远非如此!),但人们应该始终意识到手头有哪种类型的数据。当然,大型观测数据集比小型观测数据集更可取。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46678720

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档