首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于Pandas的PySpark加载包

用于Pandas的PySpark加载包
EN

Stack Overflow用户
提问于 2021-07-20 14:54:23
回答 1查看 334关注 0票数 0

我已经尝试过跟踪Databricks的博客文章这里,但不幸的是,不断地出现错误。我正在尝试安装熊猫、pyarrow、numpy和h3库,然后能够访问PySpark集群上的那些库,但是按照这些说明是行不通的。

  1. conda init --all (然后关闭并重新打开终端)
  2. conda创建-y -n pyspark_conda_env -c conda-伪造大熊猫h3 numpy python=3.7.10 conda-pack
  3. conda激活pyspark_conda_env
  4. conda pack -f -o pyspark_conda_env.tar.gz
代码语言:javascript
复制
import os
from pyspark.sql import SparkSession

os.environ['PYSPARK_PYTHON'] = "./environment/bin/python"
spark = SparkSession.builder.config(
    "spark.yarn.archive",  # 'spark.yarn.dist.archives' in YARN.
    "~/gzk/pyspark_conda_env.tar.gz#environment").getOrCreate()

我能够做到这一点,但是当我真正尝试运行一只熊猫udf时,我得到了一个错误:ModuleNotFoundError: No module named 'numpy'

我如何解决这个问题,并使用熊猫的udf?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-01-04 19:37:52

最后,我为AWS EMR集群编写了一个引导脚本来解决这个问题,该脚本将在所有节点上安装我需要的所有包。我从来没有能够让上面的指示正确地工作。

关于引导脚本的文档可以在这里找到:https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-bootstrap.html

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68457055

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档