首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在不能访问internet的服务器上安装Delta Lake库

在不能访问internet的服务器上安装Delta Lake库
EN

Stack Overflow用户
提问于 2021-03-12 20:53:23
回答 1查看 370关注 0票数 2

我有一个没有互联网接入的服务器,在那里我想使用德尔塔湖。因此,在spark会话中正常使用Delta lake是不起作用的。从pyspark.sql导入SparkSession

代码语言:javascript
复制
spark = SparkSession \
   .builder \
   .appName("...") \
   .master("...") \
   .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
   .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
   .getOrCreate()

我应该将Delta-lake github存储库复制到哪里?如何将spark会话指向正确的库

EN

回答 1

Stack Overflow用户

发布于 2021-04-20 19:33:34

多亏了@blackbishop我找到了答案how-to-add-third-party-java-jar-files-for-use-in-pyspark

对于Delta lake,请下载jar文件:delta-core_2_12_0.8.0.jar

您可以在运行时使用Spark configuration将路径添加到jar文件。

下面是一个示例:

代码语言:javascript
复制
    conf = SparkConf().set("spark.jars", "/path-to-jar/spark-streaming-kafka-0-8-assembly_2.11-2.2.1.jar")

sc = SparkContext( conf=conf)

有关详细信息,请参阅document

对于Jupyter Notebook:

代码语言:javascript
复制
spark = (SparkSession
    .builder
    .appName("Spark_Test")
    .master('yarn-client')
    .config("spark.sql.warehouse.dir", "/user/hive/warehouse")
    .config("spark.executor.cores", "4")
    .config("spark.executor.instances", "2")
    .config("spark.sql.shuffle.partitions","8")
    .enableHiveSupport()
    .getOrCreate())

# Do this 

spark.sparkContext.addPyFile("/path/to/jar/xxxx.jar")

链接到我找到它的地方:https://github.com/graphframes/graphframes/issues/104

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66600286

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档