我已经尝试过跟踪Databricks的博客文章这里,但不幸的是,不断地出现错误。我正在尝试安装熊猫、pyarrow、numpy和h3库,然后能够访问PySpark集群上的那些库,但是按照这些说明是行不通的。
import os
from pyspark.sql import SparkSession
os.environ['PYSPARK_PYTHON'] = "./environment/bin/python"
spark = SparkSession.builder.config(
"spark.yarn.archive", # 'spark.yarn.dist.archives' in YARN.
"~/gzk/pyspark_conda_env.tar.gz#environment").getOrCreate()我能够做到这一点,但是当我真正尝试运行一只熊猫udf时,我得到了一个错误:ModuleNotFoundError: No module named 'numpy'
我如何解决这个问题,并使用熊猫的udf?
发布于 2022-01-04 19:37:52
最后,我为AWS EMR集群编写了一个引导脚本来解决这个问题,该脚本将在所有节点上安装我需要的所有包。我从来没有能够让上面的指示正确地工作。
关于引导脚本的文档可以在这里找到:https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-bootstrap.html
https://stackoverflow.com/questions/68457055
复制相似问题