文章/答案/技术大牛

发布

社区首页 >问答首页 >在不能访问internet的服务器上安装Delta Lake库

问在不能访问internet的服务器上安装Delta Lake库
EN

Stack Overflow用户

提问于 2021-03-12 20:53:23

回答 1查看 370关注 0票数 2

我有一个没有互联网接入的服务器，在那里我想使用德尔塔湖。因此，在spark会话中正常使用Delta lake是不起作用的。从pyspark.sql导入SparkSession

spark = SparkSession \
   .builder \
   .appName("...") \
   .master("...") \
   .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
   .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
   .getOrCreate()

我应该将Delta-lake github存储库复制到哪里？如何将spark会话指向正确的库

apache-spark

installation

pyspark

delta-lake

回答 1

Stack Overflow用户

发布于 2021-04-20 19:33:34

多亏了@blackbishop我找到了答案how-to-add-third-party-java-jar-files-for-use-in-pyspark

对于Delta lake，请下载jar文件：delta-core_2_12_0.8.0.jar

您可以在运行时使用Spark configuration将路径添加到jar文件。

下面是一个示例：

    conf = SparkConf().set("spark.jars", "/path-to-jar/spark-streaming-kafka-0-8-assembly_2.11-2.2.1.jar")

sc = SparkContext( conf=conf)

有关详细信息，请参阅document。

对于Jupyter Notebook：

spark = (SparkSession
    .builder
    .appName("Spark_Test")
    .master('yarn-client')
    .config("spark.sql.warehouse.dir", "/user/hive/warehouse")
    .config("spark.executor.cores", "4")
    .config("spark.executor.instances", "2")
    .config("spark.sql.shuffle.partitions","8")
    .enableHiveSupport()
    .getOrCreate())

# Do this 

spark.sparkContext.addPyFile("/path/to/jar/xxxx.jar")

链接到我找到它的地方：https://github.com/graphframes/graphframes/issues/104

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66600286

复制

相似问题

问在不能访问internet的服务器上安装Delta Lake库
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在不能访问internet的服务器上安装Delta Lake库EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在不能访问internet的服务器上安装Delta Lake库
EN