文章/答案/技术大牛

发布

社区首页 >问答首页 >SparkSQL中不带聚合函数的GROUP BY

问SparkSQL中不带聚合函数的GROUP BY
EN

Stack Overflow用户

提问于 2021-08-30 18:27:26

回答 1查看 126关注 0票数 0

我正在尝试在SparkSQL中重现与sql中的group by相同的行为。

下面是一个使用SQL而不是使用SparkSQL函数在SparkSQL中所能完成的操作的示例：

输入数据集：

val input = Seq(
  ("Warsaw", 2016, 2),
  ("Toronto", 2016, 4),
  ("Toronto", 2017, 1),
  ("Toronto", 2017, 1)).toDF("city", "year", "count")

这会导致：

+-------+----+-----+
|city   |year|count|
+-------+----+-----+
|Warsaw |2016|2    |
|Toronto|2016|4    |
|Toronto|2017|1    |
|Toronto|2017|1    |
+-------+----+-----+

然后，我使用以下命令将该表注册为临时表：

input.createOrReplaceTempView("input")

然后通过使用sql

select city, year, count 
from result 
group by 1,2,3

这给了我们

+-------+----+-----+
|city   |year|count|
+-------+----+-----+
|Warsaw |2016|2    |
|Toronto|2016|4    |
|Toronto|2017|1    |
+-------+----+-----+

我希望对SparkSQL本机函数也是如此，如果可能的话，不要使用dropDuplicates。

提前感谢您的帮助

scala

apache-spark

apache-spark-sql

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-08-30 18:39:46

您可以使用Window函数- row_number()。

val columns = input.columns.map(col(_))

input.withColumn("rn", row_number().over(Window.partitionBy(columns: _*).orderBy(columns: _*)))
  .where("rn = 1")
  .drop("rn")
  .show()

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68988757

复制

相似问题

问SparkSQL中不带聚合函数的GROUP BY
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SparkSQL中不带聚合函数的GROUP BYEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SparkSQL中不带聚合函数的GROUP BY
EN