:Spark SQL和Hive on Spark。 (二)Spark SQL架构 Spark SQL架构如图所示,Spark SQL在Hive兼容层面仅依赖HiveQL解析、Hive元数据,也就是说,从HQL被解析成抽象语法树(AST)起 ,就全部由Spark SQL接管了。 Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句,数据既可以来自RDD,也可以是Hive、HDFS、Cassandra等外部数据源 ,还可以是JSON格式的数据 Spark SQL目前支持Scala、Java、Python三种语言,支持SQL-92规范。
概述 官方地址 http://spark.apache.org/sql/ Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式 SQL查询引擎的作用。 DataFrame SparkSQL使用的数据抽象是DataFrame ,DataFrame让Spark具备了处理大数据结构化数据的能力,它不仅比原来的RDD转换方式更加简单易用,而且获得了更高的计算能力 Spark 能够轻松实现从Mysql到DataFrame的转化,并且支持SQL查询。 image.png DataFrame创建 从Spark2.0以上版本开始,Spark使用全新的SparkSession接口代替Spark1.6的SQLContex以及HiveContext接口
Hive 的HiveQL解析,把HiveQL翻译成Spark上的RDD操作;Shark的出现,使得SQL-on-Hadoop的性能比Hive有了10-100倍的提高。 Spark SQL作为Spark生态的一员诞生,不再受限于Hive,只是兼容Hive。 3.2.3 Sql、dataframe、DataSet的类型安全 如果使用Spark SQL的查询语句,要直到运行时你才会发现有语法错误(这样做代价很大)。 3.3 Spark SQL优化 Catalyst是spark sql的核心,是一套针对spark sql 语句执行过程中的查询优化框架。 因此要理解spark sql的执行流程,理解Catalyst的工作流程是理解spark sql的关键。而说到Catalyst,就必须提到下面这张图了,这张图描述了spark sql执行的全流程。
org.apache.spark.sql.SQLContext import org.apache.spark. {SparkConf, SparkContext} import org.apache.spark.sql.SparkSession import org.apache.spark.sql.hive.HiveContext val sqlQuery = Source.fromFile( dataSqlFile ).mkString val dataSqlFrame = SparkConfTrait.spark.sql def main(args: Array[String]): Unit = { // val sqlQuery = Source.fromFile("path/to/data.sql def main(args: Array[String]): Unit = { // val sqlQuery = Source.fromFile("path/to/data.sql
Spark SQL 的核心是Catalyst优化器,首先将SQL处理成未优化过的逻辑计划(Unresolved Logical Plan),其只包括数据结构,不包含任何数据信息。 也就是说和spark不同, flink 的SQL Parsing, Analysing, Optimizing都是托管给calcite(flink会加入一些optimze rules). 逻辑和spark类似,只不过calcite做了catalyst的事(sql parsing,analysis和optimizing) 代码案例 首先构建数据源,这里我用了'18-'19赛季意甲联赛的射手榜数据 SQL import org.apache.spark.sql.Dataset; import org.apache.spark.sql.SparkSession; public class SparkSQLTest subscription.packtpub.com/book/big_data_and_business_intelligence/9781785889271/8/ch08lvl1sec58/the-spark-sql-architecture
一、 数据准备 本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据。 如下: spark.sql("SELECT ename,dname FROM emp JOIN dept ON emp.deptno = dept.deptno").show() 2.2 FULL OUTER JOIN empDF.join(deptDF, joinExpression, "outer").show() spark.sql("SELECT * FROM emp FULL OUTER JOIN spark.sql("SELECT * FROM emp NATURAL JOIN dept").show() 以下是一个自然连接的查询结果,程序自动推断出使用两张表都存在的 dept 列进行连接,其实际等价于 : spark.sql("SELECT * FROM emp JOIN dept ON emp.deptno = dept.deptno").show() 由于自然连接常常会产生不可预期的结果,所以并不推荐使用
Spark学习之Spark SQL(8) 1. Spark用来操作结构化和半结构化数据的接口——Spark SQL、 2. Spark SQL的三大功能 2.1 Spark SQL可以从各种结构化数据(例如JSON、Hive、Parquet等)中读取数据。 2.2 Spark SQL不仅支持在Spark程序内使用SQL语句进行查询,也支持从类似商业智能软件Tableau这样的外部工具中通过标准数据库连接器(JDBC/ODBC)连接Spark SQL进行查询 2.3 当在Spark程序内使用Spark SQL时,Spark SQL支持SQ与常规的Python/Java/Scala代码高度整合,包括连接RDD与SQL表、公开的自定义SQL函数接口等。 3. 连接Spark SQL 带有Hive支持的Spark SQL的Maven索引 groupID =org.apache.spark artifactID = spark-hive_2.10
问题导读 1.你认为如何初始化spark sql? 2.不同的语言,实现方式都是什么? 3.spark sql语句如何实现在应用程序中使用? 为了使用spark sql,我们构建HiveContext (或则SQLContext 那些想要的精简版)基于我们的SparkContext.这个context 提供额外的函数为查询和整合spark sql 初始化spark sql 为了开始spark sql,我们需要添加一些imports 到我们程序。如下面例子1 例子1Scala SQL imports [Scala] 纯文本查看 复制代码 ? // Import Spark SQL import org.apache.spark.sql.hive.HiveContext // Or if you can't have the hive dependencies import org.apache.spark.sql.SQLContext; // Import the JavaSchemaRDD import org.apache.spark.sql.SchemaRDD
但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进行Sql操作,目前它只是一个alpha版本,喜欢尝鲜的同志们进来看看吧,下面是它的官网的翻译。 Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询表达式。 val sc: SparkContext // 已经存在的SparkContext val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext._ Running SQL on RDDs Spark SQL支持的一种表的类型是Scala的case class,case class定义了表的类型,下面是例子: val sqlContext Using Parquet val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext._ val people
Spark SQL基础 Hive Hive会将SQL语句转成MapReduce作业,本身不执行SQL语句。 基本上和Hive的解析过程、逻辑执行等相同 将mapreduce作业换成了Spark作业 将HiveQL解析换成了Spark上的RDD操作 存在的两个主要问题: spark是线程并行,mapreduce 是进程级并行 spark在兼容Hive的基础上存在线程安全性问题 Spark SQL 产生原因 关系数据库在大数据时代下不再满足需求: 用户要从不同的数据源操作不同的数据,包含结构化和非结构化 用户需要执行高级分析,比如机器学习和图形处理等 大数据时代经常需要融合关系查询和复杂分析算法 Spark SQL解决的两大问题: 提供DF API,对内部和外部的各种数据进行各种关系操作 支持大量的数据源和数据分析算法 ,可以进行融合 架构 Spark SQL在Hive 兼容层面仅仅是依赖HiveQL解析、Hive元数据 执行计划生成和优化是由Catalyst(函数式关系查询优化框架)负责 Spark SQL中增加了数据框
/ 发家史 / 熟悉 Spark SQL 的都知道,Spark SQL 是从 Shark 发展而来。 Spark SQL Spark SQL 提供了多种接口: 纯 Sql 文本; dataset/dataframe api。 当然,相应的,也会有各种客户端: sql 文本,可以用 thriftserver/spark-sql; 编码,Dataframe/dataset/sql。 编程 / Spark SQL 允许用户提交 SQL 文本,支持以下三种手段编写 SQL 文本: 1. spark 代码 2. spark-sql的shell 3. thriftserver 支持 * FROM people").show() 2. spark-sql 脚本 spark-sql 启动的时候类似于 spark-submit 可以设置部署模式资源等,可以使用 bin/spark-sql
一、目的与要求 1、通过实验掌握Spark SQL的基本编程方法; 2、熟悉RDD到DataFrame的转化方法; 3、熟悉利用Spark SQL管理来自不同数据源的数据。 二、实验内容 1、Spark SQL基本操作 将下列JSON格式数据复制到Linux系统中,并保存命名为employee.json。 mysql> select * from employee; 四、结果分析与实验体会 Spark SQL是Apache Spark中用于处理结构化数据的模块。 在使用Spark SQL之前,需要创建一个SparkSession对象。可以使用SparkSession的read方法加载数据。 最后,还掌握了RDD到DataFrame的转化方法,并可以利用Spark SQL管理来自不同数据源的数据。
什么是 Spark SQL Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块. 与基本的 Spark RDD API 不同, Spark SQL 的抽象数据类型为 Spark 提供了关于数据结构和正在执行的计算的更多信息. 在内部, Spark SQL 使用这些额外的信息去做一些额外的优化. 有多种方式与 Spark SQL 进行交互, 比如: SQL 和 Dataset API. , 所以 Spark SQL 的应运而生,它是将 Spark SQL 转换成 RDD,然后提交到集群执行,执行效率非常快! Spark SQL 它提供了2个编程抽象, 类似 Spark Core 中的 RDD DataFrame DataSet 二. Spark SQL 的特点 1.
15、 Spark SQL的SQL 15.1 Spark SQL所支持的SQL语法 select [distinct] [column names]|[wildcard] from tableName SQL的SQL的框架 ? 第2种方法:在Spark配置文件中指定Hadoop配置文件目录 (2)Spark SQL与Hive Metastore结合,直接使用spark.sql(“select … from table where scala> spark.sql("show databases").show +------------+ |databaseName| +------------+ | default| | test| +------------+ scala> spark.sql("show tables").show +--------+---------+-----------+
特别是,Spark SQL将提供来自Shark 0.9服务器的无缝升级路径以及与一般Spark程序集成的新功能。 对于SQL用户,Spark SQL提供了最先进的SQL性能并保持与Shark / Hive的兼容性。 它真正统一了SQL和复杂的分析,允许用户混合和匹配SQL和更高级的分析的命令性编程API。 对于开源黑客,Spark SQL提出了一种创新的,优雅的构建查询规划器的方法。 Hiveon Spark项目(HIVE-7292) 虽然Spark SQL正在成为SQL on Spark的标准,但我们意识到许多组织已经在Hive上进行了投资。 总之,我们坚信Spark SQL不仅是SQL的未来,而且还是在Spark上的结构化数据处理的未来。我们会努力工作,将在接下来的几个版本中为您带来更多体验。
Spark Hive SQL def initDimFrontCate(sqlContext: HiveContext): mutable.HashMap[String, String] = { var dimValues = new mutable.HashMap[String, String] val sql = s"""select front_cate_id, page_level_id dw.dim_front_cate | order by front_cate_id""".stripMargin val dimData = sqlContext.sql (sql).persist(StorageLevel.MEMORY_AND_DISK) dimData.map(line => { val front_cate_id = line.getAs
背景 想通过 spark sql 查询 hive 表然后将相应的字段组装成 sql,类似于 json_object ,不过可惜的是 spark 3.1.x 并没有 json_object 函数,不过还好 spark sql 有 to_json 函数 例子: SELECT to_json(struct(bis_type,year,douban_rating)) from tv.test where date
DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点(强类型和可以用强大lambda函数)以及Spark SQL优化的执行引擎。 SparkSql 与Hive的整合 Spark SQL可以通过Hive metastore获取Hive表的元数据 Spark SQL自己也可创建元数据库,并不一定要依赖hive创建元数据库 ,所以不需要一定启动hive,只要有元数据库,Spark SQL就可以使用。 然而因为Hive有很多依赖包,所以这些依赖包没有包含在默认的Spark包里面。如果Hive依赖的包能在classpath找到,Spark将会自动加载它们。 当没有配置hive-site.xml时,Spark会自动在当前应用目录创建metastore_db和创建由spark.sql.warehouse.dir配置的目录,如果没有配置,默认是当前应用目录下的spark-warehouse
今天跟大家分享下Spark吧,谈谈如何修改Spark SQL解析,让其更符合你的业务逻辑。好,我们开始吧... 现在很多流行的应用和开源项目里都有使用,比如Hadoop、Hive以及Spark等都在使用ANTLR来做语法分析。 的语法文件,在sql下的catalyst模块里,如下图: ? 扩展语法定义 一条正常SQL,例如 Select t.id,t.name from t , 现在我们为其添加一个 JACKY表达式,令其出现在 Select 后面 ,形成一条语句 Select t.id Spark 执行流程 这里引用一张经典的Spark SQL架构图 ? 我们输入的 SQL语句 首先被解析成 Unresolved Logical Pan ,对应的是 ?
背景 想通过 spark sql 查询 hive 表然后将相应的字段组装成 sql,类似于 json_object ,不过可惜的是 spark 3.1.x 并没有 json_object 函数,不过还好 spark sql 有 to_json 函数 例子: SELECT to_json(struct(bis_type,year,douban_rating)) from tv.test where date