问如何发送和运行火花-提交与虚拟
EN

Stack Overflow用户

提问于 2021-07-04 17:31:22

回答 1查看 1.2K关注 0票数 3

我试图在独立集群上提交spark作业，我将虚拟主机压缩为venv.zip，并将该作业作为shell脚本提交

#!/bin/sh
PYSPARK_PYTHON=./venv/bin/python \
PYSPARK_DRIVER_PYTHON=./venv/bin/python 
spark-submit \
--jars ojdbc6.jar \
--master spark://HOST:7077 \
--archives venv.zip#venv \
job.py

但我一直认为，即使模块存在于venv中，并且在本地模式下运行得很好，也找不到模块。

我还尝试登录到worker节点并尝试运行venv，，在手动激活之后，可以找到模块，似乎脚本正在使用系统范围的python，如何修复这个问题呢？

apache-spark

pyspark

virtualenv

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-11-03 03:11:43

我可以用下面的片段来完成，基本上，我压缩了venv的内容，并将venv放在HDFS中(如果您没有HDFS或者节点没有任何共享的可访问位置)，如果您没有.那么，我认为您可以在同一路径下的所有节点上克隆虚拟环境。

#!/bin/sh
PYSPARK_PYTHON=./venv/bin/python \
PYSPARK_DRIVER_PYTHON=./venv/bin/python \
spark-submit \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./venv/bin/python \
--conf spark.executorEnv.PYSPARK_PYTHON=./venv/bin/python \
--conf spark.yarn.dist.archives=hdfs:///user/sw/python-envs/venv.zip#venv \
--conf spark.yarn.appMasterEnv.HADOOP_USER_NAME=hdfs \
--conf spark.executorEnv.HADOOP_USER_NAME=hdfs \
--master yarn \
--deploy-mode cluster \
--py-files p1.py,p2.py \
main.py

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68247256

复制

相似问题

问如何发送和运行火花-提交与虚拟
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何发送和运行火花-提交与虚拟EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何发送和运行火花-提交与虚拟
EN