首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用引导增加样本计数有意义吗?那麽,怎样才能做到呢?

使用引导增加样本计数有意义吗?那麽,怎样才能做到呢?
EN

Stack Overflow用户
提问于 2017-11-05 08:18:09
回答 1查看 1.2K关注 0票数 1

我有15个样本,要做回归分析有点小。

有人告诉我,使用引导技术增加样本计数将使我的数据在统计上更有意义。所以我试过了。

我第一次尝试的是让我的样本数从15到1000之间,通过对scikit的“重采样”功能--在Python中学习。

http://scikit-learn.org/stable/modules/generated/sklearn.utils.resample.html

但是当我看到“重采样”函数的源代码时,似乎没有任何关于引导的内容。

这是我的问题。

Q1:用引导技术将15个样本重采样到1000个有统计学意义吗?

Q2:如果是的话,如何在中实现?

谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-11-05 12:03:10

Q1。虽然引导本身是一种广泛使用和统计上有效的技术,但15个样本可能太小,无法做任何有用的事情。

可能有特定的领域原因,为什么你觉得这15个样本代表了你感兴趣的人群。在这种情况下,您可以使用引导程序。您可能需要考虑的一件事是将引导程序与数据中的变体结合起来。也就是说,每次数据被重新分配时,向新数据中添加一些噪声,然后将其附加到原始数据集中。

这是学习引导技术及其变体的一个很好的资源:http://www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf

Q2。你的滑雪板功能是正确的。正如文档中所提到的,重采样函数实现了引导的一个步骤。

基本上,您需要做的是运行一个循环,该循环调用原始数据上的重采样函数,并将其附加到一个新的DataFrame中,直到新DataFrame的大小为1000。注意:新的DataFrame还应该包含原始数据。

重采样函数将返回随机选择的数据子集。随机子集中的观测数等于n_samples值。例如,如果设置了n_samples=10,则替换函数将返回10个数据点。如果设置了n_samples=15,那么每次重采样都会返回整个数据集。

需要考虑的另一个参数是替换。如果替换为True,则可以在replace返回的子集中重复原始数据中的数据点。如果替换为False,则原始数据中的每个数据点只能在子集中出现一次。

对这些参数的选择将取决于您拥有的数据,但是一种合理的方法可能是设置n_samples < 15和replace=True以增加重采样返回的数据的变化。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47119550

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档