首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用pyspark编写的蜂箱查询是针对spark还是针对hive?

用pyspark编写的蜂箱查询是针对spark还是针对hive?
EN

Stack Overflow用户
提问于 2018-01-19 20:35:22
回答 1查看 824关注 0票数 0

如果我在pyspark中注册了一个hive表,然后针对该表编写sql,那么sql每次都会访问底层的hive数据库,还是它是针对星火集群中加载的数据运行的呢?这是我在一本笔记本上写的

代码语言:javascript
复制
hive_context = HiveContext(sc) #Initialize Hive
tbl_df = hive_context.table("hive_schema.hive_tbl_name")

tbl_df.registerTempTable("hive_tbl_name");
#Do the below queries run against Hive or against Spark

hive_context.sql("select count(*) from hive_tbl_name".).show();
hive_context.sql("select max(col1) from hive_tbl_name".).show();
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-19 21:05:42

sql是否每次都命中底层的hive数据库,或者它是针对spark集群中加载的数据运行的?

都不是。

  • 如果数据未被缓存,则每次执行时查询都会命中磁盘。没有“在星团中加载”状态。
  • 查询从不每次点击“底层蜂巢数据库”。因为Hive不是数据库。火花读取从蜂巢亚稳态的表格信息。无论上下文如何,都不涉及HiveServer的执行。

最后,PySpark在这里一点也不相关。执行引擎是相同的,独立于语言绑定。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48349141

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档