我正在尝试查看拼图文件,并希望显示列的不同值的数量以及它在其中找到的行数。
SQL的等价物是:
select distinct(last_name), count(*) from optimization.opt_res group by (last_name)在scala-spark中(分别显示它们):
val dataFrame = sparkSession.read.parquet(fname)
dataFrame.show(truncate = false)
val disID = dataFrame.select("last_name").distinct()
disID.show(false)
val disCount = disID.count我想让它显示出来
+-----------+-------+
| last_name | count |
+-----------+-------+
| Alfred | 202 |
| James | 1020 |
+-----------+-------+发布于 2019-07-04 07:47:40
dataframe.groupBy($"last_name").agg(count("*"))
或
dataframe.groupBy($"last_name").count
其概念与SQL相同,但在您习惯它之前,语法可能会有一点棘手。
https://stackoverflow.com/questions/56878587
复制相似问题