首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >spark不下载hive_metastore jars

spark不下载hive_metastore jars
EN

Stack Overflow用户
提问于 2021-02-26 03:49:57
回答 1查看 44关注 0票数 0

环境

我正在通过python API使用spark v2.4.4

问题

根据火花documentation我可以强迫斯帕克下载所有的蜂巢罐子,以便与我的蜂巢互动。_通过设置以下配置进行元存储

  • spark.sql.hive.metastore.version=${my_version}
  • spark.sql.hive.metastore.jars=maven

但是,当我运行以下python代码时,没有从maven下载任何jar文件。

代码语言:javascript
复制
from pyspark.sql import SparkSession
   from pyspark import SparkConf
   conf = (
       SparkConf()
       .setAppName("myapp")
       .set("spark.sql.hive.metastore.version", "2.3.3")
       .set("spark.sql.hive.metastore.jars","maven")
   )
   spark = (
       SparkSession
       .builder
       .config(conf=conf)
       .enableHiveSupport()
       .getOrCreate()
   )

如何知道没有下载jar文件?

  1. 我已经通过设置将logLevel=INFO配置为默认设置log4j.logger.org.apache.spark.api.python.PythonGatewayServer=INFO在$SPARK中_HOME/conf/log4j.properties。我看不到日志显示spark正在与maven交互。根据this我应该看到一个信息级别日志
  2. 即使由于某种原因我的日志记录被破坏,SparkSession对象的构建速度也太快,无法从maven中提取大型jars。它在5秒内返回。如果我手动添加hive的maven坐标_metastore to "spark.jars.packages“下载需要几分钟
  3. 我已经删除了~/.ivy2和~/.m2目录,以删除以前下载的缓存

其他测试

  • 我还在spark 3.0.0集群上尝试了相同的代码,它也不能工作
  • 有人能发现我做错了什么吗?还是说这个选项被打破了?
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-02-26 06:05:24

对于其他试图解决这个问题的人:

  • 在创建spark上下文时,不会从maven下载。当您运行hive命令时,就会发生这种情况。e.gspark.catalog.listDatabases()
  • 您需要确保您的spark版本支持您尝试运行的hive版本。并非所有版本的配置单元都受支持,不同版本的spark支持不同版本的配置单元。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66375524

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档