如果我在pyspark中注册了一个hive表,然后针对该表编写sql,那么sql每次都会访问底层的hive数据库,还是它是针对星火集群中加载的数据运行的呢?这是我在一本笔记本上写的
hive_context = HiveContext(sc) #Initialize Hive
tbl_df = hive_context.table("hive_schema.hive_tbl_name")
tbl_df.registerTempTable("hive_tbl_name");
#Do the below queries run against Hive or against Spark
hive_context.sql("select count(*) from hive_tbl_name".).show();
hive_context.sql("select max(col1) from hive_tbl_name".).show();发布于 2018-01-19 21:05:42
sql是否每次都命中底层的hive数据库,或者它是针对spark集群中加载的数据运行的?
都不是。
最后,PySpark在这里一点也不相关。执行引擎是相同的,独立于语言绑定。
https://stackoverflow.com/questions/48349141
复制相似问题