首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在Scala Spark中,如何分组并将组中的每个值除以该组中的行数

在Scala Spark中,如何分组并将组中的每个值除以该组中的行数
EN

Stack Overflow用户
提问于 2020-11-10 00:32:06
回答 1查看 47关注 0票数 0
代码语言:javascript
复制
  var df = Seq(("Steve",1),("Steve",0),("Steve",0),("Michael",3),("Michael",2),("Michael",0),("Katherine",4),("Katherine",0),("Devin",0)).toDF("name","score")
  df.show

我想要按名称分组,获得等于0的分数,然后将该数字除以组的总规模。

因此,它应该为"Steve“组返回2/3,为"Michael”组返回1/3,为"Katherine“组返回1/2,为"Devin”组返回1/1。

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-10 02:20:56

尝尝这个,

代码语言:javascript
复制
val df1 = df.withColumn("zero", when($"score" > 0, 0).otherwise(1))
  .groupBy("name")
  .agg((sum("zero") / count("name")).as("zero_avg") )
df1.show()

输出:

代码语言:javascript
复制
+---------+------------------+
|     name|          zero_avg|
+---------+------------------+
|    Steve|0.6666666666666666|
|  Michael|0.3333333333333333|
|    Devin|               1.0|
|Katherine|               0.5|
+---------+------------------+
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64755497

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档