搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏智能大数据分析
Spark SQL
：Spark SQL和Hive on Spark。（二）Spark SQL架构 Spark SQL架构如图所示，Spark SQL在Hive兼容层面仅依赖HiveQL解析、Hive元数据，也就是说，从HQL被解析成抽象语法树（AST）起，就全部由Spark SQL接管了。 Spark SQL增加了DataFrame（即带有Schema信息的RDD），使用户可以在Spark SQL中执行SQL语句，数据既可以来自RDD，也可以是Hive、HDFS、Cassandra等外部数据源，还可以是JSON格式的数据 Spark SQL目前支持Scala、Java、Python三种语言，支持SQL-92规范。
2.1K10编辑于 2025-01-22
来自专栏Golang开发
Spark SQL
概述官方地址 http://spark.apache.org/sql/ Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式 SQL查询引擎的作用。 DataFrame SparkSQL使用的数据抽象是DataFrame ,DataFrame让Spark具备了处理大数据结构化数据的能力，它不仅比原来的RDD转换方式更加简单易用，而且获得了更高的计算能力 Spark 能够轻松实现从Mysql到DataFrame的转化，并且支持SQL查询。 image.png DataFrame创建从Spark2.0以上版本开始，Spark使用全新的SparkSession接口代替Spark1.6的SQLContex以及HiveContext接口
99010发布于 2019-08-22
来自专栏小鹏的专栏
spark学习笔记：spark sql
org.apache.spark.sql.SQLContext import org.apache.spark. {SparkConf, SparkContext} import org.apache.spark.sql.SparkSession import org.apache.spark.sql.hive.HiveContext val sqlQuery = Source.fromFile( dataSqlFile ).mkString val dataSqlFrame = SparkConfTrait.spark.sql def main(args: Array[String]): Unit = { // val sqlQuery = Source.fromFile("path/to/data.sql def main(args: Array[String]): Unit = { // val sqlQuery = Source.fromFile("path/to/data.sql
1K10发布于 2019-09-19
来自专栏后端精进之路
Spark系列 - (3) Spark SQL
Hive 的HiveQL解析，把HiveQL翻译成Spark上的RDD操作；Shark的出现，使得SQL-on-Hadoop的性能比Hive有了10-100倍的提高。 Spark SQL作为Spark生态的一员诞生，不再受限于Hive，只是兼容Hive。 3.2.3 Sql、dataframe、DataSet的类型安全如果使用Spark SQL的查询语句，要直到运行时你才会发现有语法错误（这样做代价很大）。 3.3 Spark SQL优化 Catalyst是spark sql的核心，是一套针对spark sql 语句执行过程中的查询优化框架。因此要理解spark sql的执行流程，理解Catalyst的工作流程是理解spark sql的关键。而说到Catalyst，就必须提到下面这张图了，这张图描述了spark sql执行的全流程。
2.5K10编辑于 2023-10-19
来自专栏麒思妙想
Flink SQL vs Spark SQL
Spark SQL 的核心是Catalyst优化器，首先将SQL处理成未优化过的逻辑计划（Unresolved Logical Plan），其只包括数据结构，不包含任何数据信息。也就是说和spark不同， flink 的SQL Parsing, Analysing, Optimizing都是托管给calcite(flink会加入一些optimze rules). 逻辑和spark类似，只不过calcite做了catalyst的事（sql parsing,analysis和optimizing）代码案例首先构建数据源，这里我用了'18-'19赛季意甲联赛的射手榜数据 SQL import org.apache.spark.sql.Dataset; import org.apache.spark.sql.SparkSession; public class SparkSQLTest subscription.packtpub.com/book/big_data_and_business_intelligence/9781785889271/8/ch08lvl1sec58/the-spark-sql-architecture
4.5K32发布于 2020-07-10
来自专栏IfDataBig
Spark SQL JOIN
一、数据准备本文主要介绍 Spark SQL 的多表连接，需要预先准备测试数据。如下： spark.sql("SELECT ename,dname FROM emp JOIN dept ON emp.deptno = dept.deptno").show() 2.2 FULL OUTER JOIN empDF.join(deptDF, joinExpression, "outer").show() spark.sql("SELECT * FROM emp FULL OUTER JOIN spark.sql("SELECT * FROM emp NATURAL JOIN dept").show() 以下是一个自然连接的查询结果，程序自动推断出使用两张表都存在的 dept 列进行连接，其实际等价于： spark.sql("SELECT * FROM emp JOIN dept ON emp.deptno = dept.deptno").show() 由于自然连接常常会产生不可预期的结果，所以并不推荐使用
1.2K20编辑于 2022-07-27
来自专栏王小雷
Spark学习之Spark SQL（8）
Spark学习之Spark SQL（8） 1. Spark用来操作结构化和半结构化数据的接口——Spark SQL、 2. Spark SQL的三大功能 2.1 Spark SQL可以从各种结构化数据（例如JSON、Hive、Parquet等）中读取数据。 2.2 Spark SQL不仅支持在Spark程序内使用SQL语句进行查询，也支持从类似商业智能软件Tableau这样的外部工具中通过标准数据库连接器（JDBC/ODBC）连接Spark SQL进行查询 2.3 当在Spark程序内使用Spark SQL时，Spark SQL支持SQ与常规的Python/Java/Scala代码高度整合，包括连接RDD与SQL表、公开的自定义SQL函数接口等。 3. 连接Spark SQL 带有Hive支持的Spark SQL的Maven索引 groupID =org.apache.spark artifactID = spark-hive_2.10
1.5K70发布于 2018-01-02
来自专栏about云
Spark Sql系统入门4：spark应用程序中使用spark sql
问题导读 1.你认为如何初始化spark sql？ 2.不同的语言，实现方式都是什么？ 3.spark sql语句如何实现在应用程序中使用？为了使用spark sql，我们构建HiveContext （或则SQLContext 那些想要的精简版）基于我们的SparkContext.这个context 提供额外的函数为查询和整合spark sql 初始化spark sql 为了开始spark sql，我们需要添加一些imports 到我们程序。如下面例子1 例子1Scala SQL imports [Scala] 纯文本查看复制代码 ? // Import Spark SQL import org.apache.spark.sql.hive.HiveContext // Or if you can't have the hive dependencies import org.apache.spark.sql.SQLContext; // Import the JavaSchemaRDD import org.apache.spark.sql.SchemaRDD
1.8K70发布于 2018-03-26
来自专栏美图数据技术团队
Spark SQL | Spark，从入门到精通
/ 发家史 / 熟悉 Spark SQL 的都知道，Spark SQL 是从 Shark 发展而来。 Spark SQL Spark SQL 提供了多种接口：纯 Sql 文本； dataset/dataframe api。当然，相应的，也会有各种客户端： sql 文本，可以用 thriftserver/spark-sql；编码，Dataframe/dataset/sql。编程 / Spark SQL 允许用户提交 SQL 文本，支持以下三种手段编写 SQL 文本： 1. spark 代码 2. spark-sql的shell 3. thriftserver 支持 * FROM people").show() 2. spark-sql 脚本 spark-sql 启动的时候类似于 spark-submit 可以设置部署模式资源等，可以使用 bin/spark-sql
2.6K30发布于 2019-04-19
来自专栏机器学习/数据可视化
Spark笔记11-Spark-SQL基础
Spark SQL基础 Hive Hive会将SQL语句转成MapReduce作业，本身不执行SQL语句。基本上和Hive的解析过程、逻辑执行等相同将mapreduce作业换成了Spark作业将HiveQL解析换成了Spark上的RDD操作存在的两个主要问题： spark是线程并行，mapreduce 是进程级并行 spark在兼容Hive的基础上存在线程安全性问题 Spark SQL 产生原因关系数据库在大数据时代下不再满足需求：用户要从不同的数据源操作不同的数据，包含结构化和非结构化用户需要执行高级分析，比如机器学习和图形处理等大数据时代经常需要融合关系查询和复杂分析算法 Spark SQL解决的两大问题：提供DF API，对内部和外部的各种数据进行各种关系操作支持大量的数据源和数据分析算法，可以进行融合架构 Spark SQL在Hive 兼容层面仅仅是依赖HiveQL解析、Hive元数据执行计划生成和优化是由Catalyst（函数式关系查询优化框架）负责 Spark SQL中增加了数据框
58410发布于 2021-03-02
来自专栏智能大数据分析
Spark编程实验三：Spark SQL编程
一、目的与要求 1、通过实验掌握Spark SQL的基本编程方法； 2、熟悉RDD到DataFrame的转化方法； 3、熟悉利用Spark SQL管理来自不同数据源的数据。二、实验内容 1、Spark SQL基本操作将下列JSON格式数据复制到Linux系统中，并保存命名为employee.json。 mysql> select * from employee; 四、结果分析与实验体会 Spark SQL是Apache Spark中用于处理结构化数据的模块。在使用Spark SQL之前，需要创建一个SparkSession对象。可以使用SparkSession的read方法加载数据。最后，还掌握了RDD到DataFrame的转化方法，并可以利用Spark SQL管理来自不同数据源的数据。
1K10编辑于 2025-01-22
来自专栏岑玉海
Spark1.0新特性-->Spark SQL
但是最最重要的就是多了一个Spark SQL的功能，它能对RDD进行Sql操作，目前它只是一个alpha版本，喜欢尝鲜的同志们进来看看吧，下面是它的官网的翻译。 Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询表达式。 val sc: SparkContext // 已经存在的SparkContext val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext._ Running SQL on RDDs Spark SQL支持的一种表的类型是Scala的case class，case class定义了表的类型，下面是例子： val sqlContext Using Parquet val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext._ val people
1K40发布于 2018-02-28
来自专栏不温卜火
Spark SQL 快速入门系列(1) | Spark SQL 的简单介绍！
什么是 Spark SQL Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块. 与基本的 Spark RDD API 不同, Spark SQL 的抽象数据类型为 Spark 提供了关于数据结构和正在执行的计算的更多信息. 在内部, Spark SQL 使用这些额外的信息去做一些额外的优化. 有多种方式与 Spark SQL 进行交互, 比如: SQL 和 Dataset API. , 所以 Spark SQL 的应运而生，它是将 Spark SQL 转换成 RDD，然后提交到集群执行，执行效率非常快！ Spark SQL 它提供了2个编程抽象, 类似 Spark Core 中的 RDD DataFrame DataSet 二. Spark SQL 的特点 1.
1.5K20发布于 2020-10-28
来自专栏大数据学习笔记
Spark2.x学习笔记：15、Spark SQL的SQL
15、 Spark SQL的SQL 15.1 Spark SQL所支持的SQL语法 select [distinct] [column names]|[wildcard] from tableName SQL的SQL的框架 ? 第2种方法：在Spark配置文件中指定Hadoop配置文件目录（2）Spark SQL与Hive Metastore结合，直接使用spark.sql(“select … from table where scala> spark.sql("show databases").show +------------+ |databaseName| +------------+ | default| | test| +------------+ scala> spark.sql("show tables").show +--------+---------+-----------+
1.2K80发布于 2018-01-02
来自专栏鸿的学习笔记
Shark，Spark SQL，Spark上的Hive以及Apache Spark上的SQL的未来
特别是，Spark SQL将提供来自Shark 0.9服务器的无缝升级路径以及与一般Spark程序集成的新功能。对于SQL用户，Spark SQL提供了最先进的SQL性能并保持与Shark / Hive的兼容性。它真正统一了SQL和复杂的分析，允许用户混合和匹配SQL和更高级的分析的命令性编程API。对于开源黑客，Spark SQL提出了一种创新的，优雅的构建查询规划器的方法。 Hiveon Spark项目（HIVE-7292）虽然Spark SQL正在成为SQL on Spark的标准，但我们意识到许多组织已经在Hive上进行了投资。总之，我们坚信Spark SQL不仅是SQL的未来，而且还是在Spark上的结构化数据处理的未来。我们会努力工作，将在接下来的几个版本中为您带来更多体验。
1.9K20发布于 2018-08-06
来自专栏大数据仓库建设
Spark Hive SQL实例
Spark Hive SQL def initDimFrontCate(sqlContext: HiveContext): mutable.HashMap[String, String] = { var dimValues = new mutable.HashMap[String, String] val sql = s"""select front_cate_id, page_level_id dw.dim_front_cate | order by front_cate_id""".stripMargin val dimData = sqlContext.sql (sql).persist(StorageLevel.MEMORY_AND_DISK) dimData.map(line => { val front_cate_id = line.getAs
94120发布于 2019-03-14
来自专栏码字搬砖
spark sql 生成 json
背景想通过 spark sql 查询 hive 表然后将相应的字段组装成 sql，类似于 json_object ，不过可惜的是 spark 3.1.x 并没有 json_object 函数，不过还好 spark sql 有 to_json 函数例子： SELECT to_json(struct(bis_type,year,douban_rating)) from tv.test where date
44100编辑于 2025-05-16
来自专栏DevOps
Spark Sql 详细介绍
DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点（强类型和可以用强大lambda函数）以及Spark SQL优化的执行引擎。 SparkSql 与Hive的整合 Spark SQL可以通过Hive metastore获取Hive表的元数据 Spark SQL自己也可创建元数据库，并不一定要依赖hive创建元数据库，所以不需要一定启动hive，只要有元数据库，Spark SQL就可以使用。然而因为Hive有很多依赖包，所以这些依赖包没有包含在默认的Spark包里面。如果Hive依赖的包能在classpath找到，Spark将会自动加载它们。当没有配置hive-site.xml时，Spark会自动在当前应用目录创建metastore_db和创建由spark.sql.warehouse.dir配置的目录，如果没有配置，默认是当前应用目录下的spark-warehouse
59210编辑于 2024-03-29
来自专栏麒思妙想
扩展 Spark SQL 解析
今天跟大家分享下Spark吧，谈谈如何修改Spark SQL解析，让其更符合你的业务逻辑。好，我们开始吧... 现在很多流行的应用和开源项目里都有使用，比如Hadoop、Hive以及Spark等都在使用ANTLR来做语法分析。的语法文件，在sql下的catalyst模块里，如下图： ? 扩展语法定义一条正常SQL，例如 Select t.id,t.name from t , 现在我们为其添加一个 JACKY表达式，令其出现在 Select 后面，形成一条语句 Select t.id Spark 执行流程这里引用一张经典的Spark SQL架构图 ? 我们输入的 SQL语句首先被解析成 Unresolved Logical Pan ，对应的是 ?
1.4K70发布于 2021-04-23
来自专栏DevOps
Spark SQL 整体介绍
Spark SQL核心—Catalyst查询编译器 Spark SQL的核心是一个叫做Catalyst的查询编译器，它将用户程序中的SQL/Dataset/DataFrame经过一系列操作，最终转化为Spark 经过上述的一整个流程，就完成了从用户编写的SQL语句（或DataFrame/Dataset），到Spark内部RDD的具体操作逻辑的转化。 HiveContext 和 Spark Sql Content 执行流程比较 sparksql 执行流程图 sqlContext总的一个过程如下图所示 1.SQL语句经过SqlParse解析成UnresolvedLogicalPlan 参考: https://blog.51cto.com/9269309/1845525 *** 8. thriftserver 的优势 spark-shell、spark-sql 都是是一个独立的 spark 注意 spark sql 可以跨数据源进行join，例如hdfs与mysql里表内容join Spark SQL运行可以不用hive，只要你连接到hive的metastore就可以 2.
55310编辑于 2024-03-29

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Spark SQL

Spark SQL

spark学习笔记：spark sql

Spark系列 - (3) Spark SQL

Flink SQL vs Spark SQL

Spark SQL JOIN

Spark学习之Spark SQL（8）

Spark Sql系统入门4：spark应用程序中使用spark sql

Spark SQL | Spark，从入门到精通

Spark笔记11-Spark-SQL基础

Spark编程实验三：Spark SQL编程

Spark1.0新特性-->Spark SQL

Spark SQL 快速入门系列(1) | Spark SQL 的简单介绍！

Spark2.x学习笔记：15、Spark SQL的SQL

Shark，Spark SQL，Spark上的Hive以及Apache Spark上的SQL的未来

Spark Hive SQL实例

spark sql 生成 json

Spark Sql 详细介绍

扩展 Spark SQL 解析

Spark SQL 整体介绍

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐