文章/答案/技术大牛

发布

社区首页 >问答首页 >当PySpark对纱线的包装依赖时，没有发现Conda环境

问当PySpark对纱线的包装依赖时，没有发现Conda环境
EN

Stack Overflow用户

提问于 2021-07-23 17:09:38

回答 1查看 83关注 0票数 0

我遵循这个指南，在我的PySpark &纱线应用程序中跨执行器节点分发熊猫和吡箭依赖项。这是运行Pandas所必需的。

我正在创建这样的Conda虚拟环境：

conda create -y -n pyspark_conda_env -c conda-forge pyarrow pandas conda-pack
conda activate pyspark_conda_env
conda pack -f -o pyspark_conda_env.tar.gz

然后提交星火作业：

spark_job_config_path = '/tmp/spark_job_config.json'

            cmd = [
                "spark-submit",
                "--master",
                "yarn",
                "--deploy-mode",
                "client",
                "--archives",
                "/opt/program/pyspark_conda_env.tar.gz#environment",
                "/opt/program/image_analysis_launcher.py",
            ]
            cmd.extend([spark_job_config_path])

            subprocess.run(cmd, check = True)

我正在创建火花会议，如下所示：

spark = SparkSession.builder.master("yarn").config("spark.yarn.dist.archives", "pyspark_conda_env.tar.gz#environment").appName("AppName").getOrCreate()

运行此程序所在的Docker容器后，将收到以下错误消息：

py4j.protocol.Py4JJavaError: An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext.
: java.io.FileNotFoundException: File file:/usr/spark-3.1.2/pyspark_conda_env.tar.gz#environment does not exist

我也尝试过使用VirtualEnv和PEX来打包依赖项，但是也会出现类似的错误消息。知道为什么会发生这种事吗？

conda

python

pandas

apache-spark

pyspark

回答 1

Stack Overflow用户

发布于 2022-07-13 06:59:54

我认为您在命令中丢失了python驱动程序的配置。

就我而言，我的命令是：

PYSPARK_DRIVER_PYTHON=`which python` \  # set driver
PYSPARK_PYTHON=./snat/snat/bin/python \  # set python, in your case should be ./environment/bin/python
nohup /app/spark/bin/spark-submit \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./snat/snat/bin/python \  # in your case should be ./environment/bin/python
--master yarn \
--deploy-mode client \
--num-executors 4 \
--executor-memory 2G \
--jars $(echo /path/to/jars/*.jar | tr ' ' ',') \
--archives hdfs:///user/root/cloud/snat.zip#snat \
features/main.py > yarn_pyspark_test.log &

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68502852

复制

相似问题

问当PySpark对纱线的包装依赖时，没有发现Conda环境
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当PySpark对纱线的包装依赖时，没有发现Conda环境EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当PySpark对纱线的包装依赖时，没有发现Conda环境
EN