我有一个没有互联网接入的服务器,在那里我想使用德尔塔湖。因此,在spark会话中正常使用Delta lake是不起作用的。从pyspark.sql导入SparkSession
spark = SparkSession \
.builder \
.appName("...") \
.master("...") \
.config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
.config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
.getOrCreate()我应该将Delta-lake github存储库复制到哪里?如何将spark会话指向正确的库
发布于 2021-04-20 19:33:34
多亏了@blackbishop我找到了答案how-to-add-third-party-java-jar-files-for-use-in-pyspark
对于Delta lake,请下载jar文件:delta-core_2_12_0.8.0.jar
您可以在运行时使用Spark configuration将路径添加到jar文件。
下面是一个示例:
conf = SparkConf().set("spark.jars", "/path-to-jar/spark-streaming-kafka-0-8-assembly_2.11-2.2.1.jar")
sc = SparkContext( conf=conf)有关详细信息,请参阅document。
对于Jupyter Notebook:
spark = (SparkSession
.builder
.appName("Spark_Test")
.master('yarn-client')
.config("spark.sql.warehouse.dir", "/user/hive/warehouse")
.config("spark.executor.cores", "4")
.config("spark.executor.instances", "2")
.config("spark.sql.shuffle.partitions","8")
.enableHiveSupport()
.getOrCreate())
# Do this
spark.sparkContext.addPyFile("/path/to/jar/xxxx.jar")链接到我找到它的地方:https://github.com/graphframes/graphframes/issues/104
https://stackoverflow.com/questions/66600286
复制相似问题