文章/答案/技术大牛

发布

社区首页 >问答首页 >用pyspark编写的蜂箱查询是针对spark还是针对hive？

问用pyspark编写的蜂箱查询是针对spark还是针对hive？
EN

Stack Overflow用户

提问于 2018-01-19 20:35:22

回答 1查看 824关注 0票数 0

如果我在pyspark中注册了一个hive表，然后针对该表编写sql，那么sql每次都会访问底层的hive数据库，还是它是针对星火集群中加载的数据运行的呢？这是我在一本笔记本上写的

hive_context = HiveContext(sc) #Initialize Hive
tbl_df = hive_context.table("hive_schema.hive_tbl_name")

tbl_df.registerTempTable("hive_tbl_name");
#Do the below queries run against Hive or against Spark

hive_context.sql("select count(*) from hive_tbl_name".).show();
hive_context.sql("select max(col1) from hive_tbl_name".).show();

hadoop

hive

pyspark

apache-spark-sql

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-19 21:05:42

sql是否每次都命中底层的hive数据库，或者它是针对spark集群中加载的数据运行的？

都不是。

如果数据未被缓存，则每次执行时查询都会命中磁盘。没有“在星团中加载”状态。
查询从不每次点击“底层蜂巢数据库”。因为Hive不是数据库。火花读取从蜂巢亚稳态的表格信息。无论上下文如何，都不涉及HiveServer的执行。

最后，PySpark在这里一点也不相关。执行引擎是相同的，独立于语言绑定。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48349141

复制

相似问题

问用pyspark编写的蜂箱查询是针对spark还是针对hive？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用pyspark编写的蜂箱查询是针对spark还是针对hive？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用pyspark编写的蜂箱查询是针对spark还是针对hive？
EN