文章/答案/技术大牛

发布

社区首页 >问答首页 >用于Pandas的PySpark加载包

问用于Pandas的PySpark加载包
EN

Stack Overflow用户

提问于 2021-07-20 14:54:23

回答 1查看 334关注 0票数 0

我已经尝试过跟踪Databricks的博客文章这里，但不幸的是，不断地出现错误。我正在尝试安装熊猫、pyarrow、numpy和h3库，然后能够访问PySpark集群上的那些库，但是按照这些说明是行不通的。

conda init --all (然后关闭并重新打开终端)
conda创建-y -n pyspark_conda_env -c conda-伪造大熊猫h3 numpy python=3.7.10 conda-pack
conda激活pyspark_conda_env
conda pack -f -o pyspark_conda_env.tar.gz

import os
from pyspark.sql import SparkSession

os.environ['PYSPARK_PYTHON'] = "./environment/bin/python"
spark = SparkSession.builder.config(
    "spark.yarn.archive",  # 'spark.yarn.dist.archives' in YARN.
    "~/gzk/pyspark_conda_env.tar.gz#environment").getOrCreate()

我能够做到这一点，但是当我真正尝试运行一只熊猫udf时，我得到了一个错误：ModuleNotFoundError: No module named 'numpy'

我如何解决这个问题，并使用熊猫的udf？

pandas

apache-spark

pyspark

databricks

python

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-01-04 19:37:52

最后，我为AWS EMR集群编写了一个引导脚本来解决这个问题，该脚本将在所有节点上安装我需要的所有包。我从来没有能够让上面的指示正确地工作。

关于引导脚本的文档可以在这里找到：https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-bootstrap.html

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68457055

复制

相似问题

问用于Pandas的PySpark加载包
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于Pandas的PySpark加载包EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于Pandas的PySpark加载包
EN