我想初始化在AWS cloud9上的PyscemVersion3.3.1,并从aws读取一个s3文件路径。但是当我运行代码时,我得到了在图像中显示的错误。
我在想我的Pyspark初始化有什么问题,我已经尝试了我的同事提供的下面的代码,但是显然这对我不起作用。在这里输入图像描述
我的电火花版本是3.3.1和hadoop版本3
pkg_list=org.apache.spark:spark-avro_2.11:2.4.4,org.apache.hadoop:hadoop-aws:2.7.1
pyspark --packages $pkg_list --driver-memory 32G --driver-cores 8 --num-executors 8 --executor-memory 32G --executor-cores 8 --driver-java-options="-Djava.io.tmpdir=/home/yoongkiat/tempfiles"发布于 2022-12-02 13:33:34
错误是,在Spark正在使用的某个hadoop文件或选项中,您有一个字符串64M,但它只需要一个数字。
错误没有说明是哪个文件,也不是您在命令行中提供的值,因此您需要自己调试安装。正如注释中提到的,AWS EMR已经提供了一个功能性的星火环境。
这样,您就不能使用来自不同Spark版本的依赖关系;您正在运行3.3.1,但是尝试为2.4.4添加星星之火-avro。我也不确定您是否需要添加hadoop,因为Spark应该包含这些库。
https://stackoverflow.com/questions/74650553
复制相似问题