SampleByKey的采样方法是将键转换为散列,从中派生一个双精度值,然后根据提供的概率对其进行测试。密钥派生的双精度值在0到1之间均匀分布,代码为Link。具有相同键的所有行都以这种方式进行采样。
我有一个Dataframe,它是通过对多个dataframe执行联合操作而形成的(它们都有相同的模式)。我感兴趣的是,每个单独的数据帧都有一个column X,并在其中表示一个值y。这个值y也会出现在其他一些数据帧中。如果我对此数据帧进行采样,无论是单独采样还是post联合采样,如何确保采样的数据包含在column X中具有值y的所有数据?类似于SampleByKey的工作方式。
我查看了DataFrame的sample应用程序接口,但它似乎不是这样工作的。有人能帮帮忙吗!
发布于 2020-06-03 18:33:40
这是一个stratified sampling的案例。Spark实现了更强大的采样算法
泊松采样Algo
你可以将你的dataframe转换成RDD[(K, V)],也就是PairRDD,然后你可以使用配对rdd函数sampleByKey,检查这个source-
def sampleByKey(withReplacement: Boolean,
fractions: Map[K, Double],
seed: Long = Utils.random.nextLong): RDD[(K, V)]有关更多信息- spark stratified sampling
从列x中获取具有y的所有行
// specify the exact fraction desired from each key
val fractions = Map("y" -> 1)// for all rows 1, for 50% rows use 0.5 etc.
// Get an exact sample from each stratum
// here data is RDD[(x, <any_other_col>)]
val exactSample = data.sampleByKeyExact(withReplacement = false, fractions = fractions)https://stackoverflow.com/questions/62160954
复制相似问题