文章/答案/技术大牛

发布

社区首页 >问答首页 >Scala Spark :在Spark中有没有datafu.pig.sampling.SampleByKey的替代品？

问Scala Spark :在Spark中有没有datafu.pig.sampling.SampleByKey的替代品？
EN

Stack Overflow用户

提问于 2020-06-03 04:34:00

回答 1查看 64关注 0票数 0

SampleByKey的采样方法是将键转换为散列，从中派生一个双精度值，然后根据提供的概率对其进行测试。密钥派生的双精度值在0到1之间均匀分布，代码为Link。具有相同键的所有行都以这种方式进行采样。

我有一个Dataframe，它是通过对多个dataframe执行联合操作而形成的(它们都有相同的模式)。我感兴趣的是，每个单独的数据帧都有一个column X，并在其中表示一个值y。这个值y也会出现在其他一些数据帧中。如果我对此数据帧进行采样，无论是单独采样还是post联合采样，如何确保采样的数据包含在column X中具有值y的所有数据？类似于SampleByKey的工作方式。

我查看了DataFrame的sample应用程序接口，但它似乎不是这样工作的。有人能帮帮忙吗！

apache-pig

scala

apache-spark

apache-spark-sql

回答 1

Stack Overflow用户

发布于 2020-06-03 18:33:40

这是一个stratified sampling的案例。Spark实现了更强大的采样算法

泊松采样Algo

Bernoulli采样Algo

你可以将你的dataframe转换成RDD[(K, V)]，也就是PairRDD，然后你可以使用配对rdd函数sampleByKey，检查这个source-

  def sampleByKey(withReplacement: Boolean,
      fractions: Map[K, Double],
      seed: Long = Utils.random.nextLong): RDD[(K, V)]

有关更多信息- spark stratified sampling

从列x中获取具有y的所有行

// specify the exact fraction desired from each key
val fractions = Map("y" -> 1)// for all rows 1, for 50% rows use 0.5 etc.

// Get an exact sample from each stratum
// here data is RDD[(x, <any_other_col>)]
val exactSample = data.sampleByKeyExact(withReplacement = false, fractions = fractions)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62160954

复制

相似问题

问Scala Spark :在Spark中有没有datafu.pig.sampling.SampleByKey的替代品？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scala Spark :在Spark中有没有datafu.pig.sampling.SampleByKey的替代品？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scala Spark :在Spark中有没有datafu.pig.sampling.SampleByKey的替代品？
EN