我知道,对于传统的和加权的水库采样算法,用户必须指定水库的大小作为输入。是否有任何水库采样算法只接受项目的统一采样率作为输入,这意味着用户不知道流先验的大小以及生成的样本大小?我环顾了四周,但没有任何运气。
谢谢你的帮助!!
发布于 2016-09-01 00:30:16
如果你既不知道总体的大小,也不知道期望的样本大小,那么唯一可能的流式算法就是选择概率为p的每个元素。这并不能保证所选的样本将精确地包含pN元素,但它将是无偏的,并且大小大致正确。
话虽如此,我认为这是非常罕见的用例,需要一个样本的x%的未知人口。更常见的是,样本的大小是由处理(或存储)的成本固定的,在这种情况下,无论总体大小如何,储备库采样都将填充所需的样本大小。
https://stackoverflow.com/questions/39253797
复制相似问题