首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >不指定水库大小作为输入的水库采样(仅指定统一的采样率)

不指定水库大小作为输入的水库采样(仅指定统一的采样率)
EN

Stack Overflow用户
提问于 2016-08-31 23:39:47
回答 1查看 70关注 0票数 0

我知道,对于传统的和加权的水库采样算法,用户必须指定水库的大小作为输入。是否有任何水库采样算法只接受项目的统一采样率作为输入,这意味着用户不知道流先验的大小以及生成的样本大小?我环顾了四周,但没有任何运气。

谢谢你的帮助!!

EN

回答 1

Stack Overflow用户

发布于 2016-09-01 00:30:16

如果你既不知道总体的大小,也不知道期望的样本大小,那么唯一可能的流式算法就是选择概率为p的每个元素。这并不能保证所选的样本将精确地包含pN元素,但它将是无偏的,并且大小大致正确。

话虽如此,我认为这是非常罕见的用例,需要一个样本的x%的未知人口。更常见的是,样本的大小是由处理(或存储)的成本固定的,在这种情况下,无论总体大小如何,储备库采样都将填充所需的样本大小。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39253797

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档