首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Scala Spark :在Spark中有没有datafu.pig.sampling.SampleByKey的替代品?

Scala Spark :在Spark中有没有datafu.pig.sampling.SampleByKey的替代品?
EN

Stack Overflow用户
提问于 2020-06-03 04:34:00
回答 1查看 64关注 0票数 0

SampleByKey的采样方法是将键转换为散列,从中派生一个双精度值,然后根据提供的概率对其进行测试。密钥派生的双精度值在0到1之间均匀分布,代码为Link。具有相同键的所有行都以这种方式进行采样。

我有一个Dataframe,它是通过对多个dataframe执行联合操作而形成的(它们都有相同的模式)。我感兴趣的是,每个单独的数据帧都有一个column X,并在其中表示一个值y。这个值y也会出现在其他一些数据帧中。如果我对此数据帧进行采样,无论是单独采样还是post联合采样,如何确保采样的数据包含在column X中具有值y的所有数据?类似于SampleByKey的工作方式。

我查看了DataFrame的sample应用程序接口,但它似乎不是这样工作的。有人能帮帮忙吗!

EN

回答 1

Stack Overflow用户

发布于 2020-06-03 18:33:40

这是一个stratified sampling的案例。Spark实现了更强大的采样算法

泊松采样Algo

  • Bernoulli采样Algo

你可以将你的dataframe转换成RDD[(K, V)],也就是PairRDD,然后你可以使用配对rdd函数sampleByKey,检查这个source-

代码语言:javascript
复制
  def sampleByKey(withReplacement: Boolean,
      fractions: Map[K, Double],
      seed: Long = Utils.random.nextLong): RDD[(K, V)]

有关更多信息- spark stratified sampling

从列x中获取具有y的所有行

代码语言:javascript
复制
// specify the exact fraction desired from each key
val fractions = Map("y" -> 1)// for all rows 1, for 50% rows use 0.5 etc.

// Get an exact sample from each stratum
// here data is RDD[(x, <any_other_col>)]
val exactSample = data.sampleByKeyExact(withReplacement = false, fractions = fractions)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62160954

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档