文章/答案/技术大牛

发布

社区首页 >问答首页 >ArrayType火花列中唯一元素行的平均值

问ArrayType火花列中唯一元素行的平均值
EN

Stack Overflow用户

提问于 2020-06-17 18:41:06

回答 2查看 84关注 0票数 1

我有一个大的(23M行)，格式如下：

names, sentiment
["Lily","Kerry","Mona"], 10
["Kerry", "Mona"], 2
["Mona"], 0

我想计算名称列中每个唯一名称的平均情绪，结果是：

name, sentiment
"Lily", 10
"Kerry", 6
"Mona", 4

apache-spark

pyspark

apache-spark-sql

user-defined-functions

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-06-18 02:52:29

只需引爆数组，然后分组

火花当量

import pyspark.sql.functions as f
df1 = df.select(f.explode('names').alias('name'),'sentiment')

df1.groupBy('name').agg(f.avg('sentiment').alias('sentiment')).show()

票数 1

Stack Overflow用户

发布于 2020-06-17 20:00:44

   val avgDF = Seq((Seq("Lily","Kerry","Mona"), 10),
      (Seq("Kerry", "Mona"), 2),
      (Seq("Mona"), 0)
  ).toDF("names", "sentiment")

  val avgDF1 = avgDF.withColumn("name", explode('names))
  val avgResultDF = avgDF1.groupBy("name").agg(avg(col("sentiment")))


  avgResultDF.show(false)
  //      +-----+--------------+
  //      |name |avg(sentiment)|
  //      +-----+--------------+
  //      |Lily |10.0          |
  //      |Kerry|6.0           |
  //      |Mona |4.0           |
  //      +-----+--------------+

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62436130

复制

相似问题

问ArrayType火花列中唯一元素行的平均值
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ArrayType火花列中唯一元素行的平均值EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ArrayType火花列中唯一元素行的平均值
EN