首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Scala spark,显示不同的列值和计数出现次数

Scala spark,显示不同的列值和计数出现次数
EN

Stack Overflow用户
提问于 2019-07-04 06:19:43
回答 1查看 77关注 0票数 0

我正在尝试查看拼图文件,并希望显示列的不同值的数量以及它在其中找到的行数。

SQL的等价物是:

代码语言:javascript
复制
select distinct(last_name), count(*) from optimization.opt_res group by (last_name)

在scala-spark中(分别显示它们):

代码语言:javascript
复制
val dataFrame = sparkSession.read.parquet(fname)
dataFrame.show(truncate = false)
val disID = dataFrame.select("last_name").distinct()
disID.show(false)
val disCount = disID.count

我想让它显示出来

代码语言:javascript
复制
+-----------+-------+
| last_name | count |
+-----------+-------+
| Alfred    |   202 |
| James     |  1020 |
+-----------+-------+
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-04 07:47:40

dataframe.groupBy($"last_name").agg(count("*"))

dataframe.groupBy($"last_name").count

其概念与SQL相同,但在您习惯它之前,语法可能会有一点棘手。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56878587

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档