文章/答案/技术大牛

发布

社区首页 >问答首页 >使用引导增加样本计数有意义吗？那麽，怎样才能做到呢？

问使用引导增加样本计数有意义吗？那麽，怎样才能做到呢？
EN

Stack Overflow用户

提问于 2017-11-05 08:18:09

回答 1查看 1.2K关注 0票数 1

我有15个样本，要做回归分析有点小。

有人告诉我，使用引导技术增加样本计数将使我的数据在统计上更有意义。所以我试过了。

我第一次尝试的是让我的样本数从15到1000之间，通过对scikit的“重采样”功能--在Python中学习。

http://scikit-learn.org/stable/modules/generated/sklearn.utils.resample.html

但是当我看到“重采样”函数的源代码时，似乎没有任何关于引导的内容。

这是我的问题。

Q1:用引导技术将15个样本重采样到1000个有统计学意义吗？

Q2:如果是的话，如何在中实现？

谢谢。

python

scikit-learn

statistics

regression

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-11-05 12:03:10

Q1。虽然引导本身是一种广泛使用和统计上有效的技术，但15个样本可能太小，无法做任何有用的事情。

可能有特定的领域原因，为什么你觉得这15个样本代表了你感兴趣的人群。在这种情况下，您可以使用引导程序。您可能需要考虑的一件事是将引导程序与数据中的变体结合起来。也就是说，每次数据被重新分配时，向新数据中添加一些噪声，然后将其附加到原始数据集中。

这是学习引导技术及其变体的一个很好的资源：http://www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf

Q2。你的滑雪板功能是正确的。正如文档中所提到的，重采样函数实现了引导的一个步骤。

基本上，您需要做的是运行一个循环，该循环调用原始数据上的重采样函数，并将其附加到一个新的DataFrame中，直到新DataFrame的大小为1000。注意:新的DataFrame还应该包含原始数据。

重采样函数将返回随机选择的数据子集。随机子集中的观测数等于n_samples值。例如，如果设置了n_samples=10，则替换函数将返回10个数据点。如果设置了n_samples=15，那么每次重采样都会返回整个数据集。

需要考虑的另一个参数是替换。如果替换为True，则可以在replace返回的子集中重复原始数据中的数据点。如果替换为False，则原始数据中的每个数据点只能在子集中出现一次。

对这些参数的选择将取决于您拥有的数据，但是一种合理的方法可能是设置n_samples < 15和replace=True以增加重采样返回的数据的变化。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47119550

复制

相似问题

问使用引导增加样本计数有意义吗？那麽，怎样才能做到呢？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用引导增加样本计数有意义吗？那麽，怎样才能做到呢？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用引导增加样本计数有意义吗？那麽，怎样才能做到呢？
EN