我是Spark的新手。按照书中的以下示例,我发现下面的命令给出了错误。在Spark中编写代码时,运行Spark-SQL命令的最佳方式是什么?
scala> // Use SQL to create another DataFrame containing the account
summary records
scala> val acSummary = spark.sql("SELECT accNo, sum(tranAmount) as TransTotal FROM trans GROUP BY accNo")
<console>:37: error: not found: value spark我尝试导入导入org.apache.spark.SparkContext或使用sc对象,但没有成功。
发布于 2017-03-01 11:23:37
假设您在spark-shell中,那么首先获取sql上下文,如下所示:
val sqlContext = new org.apache.spark.sql.SQLContext(sc)然后您可以执行以下操作:
val acSummary = sqlContext.sql("SELECT accNo, sum(tranAmount) as TransTotal FROM trans GROUP BY accNo")发布于 2017-03-01 07:16:50
因此,spark-shell中可用的值spark实际上是SparkSession (https://spark.apache.org/docs/2.0.2/api/scala/index.html#org.apache.spark.sql.SparkSession)的一个实例
val spark = SparkSession.builder().getOrCreate()会给你一个。
发布于 2017-03-01 08:26:46
您使用的是什么版本?看起来你在shell中,这应该可以工作,但只能在Spark 2+中使用-否则你必须使用sqlContext.sql
https://stackoverflow.com/questions/42520426
复制相似问题