发布于 2015-11-25 12:26:19
您可以简单地在PYSPARK_SUBMIT_ARGS变量中传递它。例如:
export PACKAGES="com.databricks:spark-csv_2.11:1.3.0"
export PYSPARK_SUBMIT_ARGS="--packages ${PACKAGES} pyspark-shell"这些属性也可以在SparkContext / SparkSession和相应的JVM启动之前在您的代码中动态设置:
packages = "com.databricks:spark-csv_2.11:1.3.0"
os.environ["PYSPARK_SUBMIT_ARGS"] = (
"--packages {0} pyspark-shell".format(packages)
)发布于 2016-01-29 01:11:16
我相信您也可以将其作为变量添加到spark-defaults.conf文件中。所以就像这样:
spark.jars.packages com.databricks:spark-csv_2.10:1.3.0这将在您每次启动驱动程序时将spark-csv库加载到PySpark中。
显然,zero的答案更加灵活,因为您可以在导入PySpark包之前将以下代码行添加到PySpark应用程序中:
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-csv_2.10:1.3.0 pyspark-shell'
from pyspark import SparkContext, SparkConf通过这种方式,您只需导入脚本实际需要的包。
https://stackoverflow.com/questions/33908156
复制相似问题