我已经通过k8s代理容器在坞中配置了Hadoop和spark,我们使用它来运行Jenkins作业,我们使用AWS。但是,在运行星火提交作业时,我们会得到以下错误
py4j.protocol.Py4JJavaError: An error occurred while calling o40.exists.
com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 403, AWS Service: Amazon S3, AWS Request ID: xxxxxxxxx, AWS Error Code: null, AWS Error Message: Forbidden, S3 Extended Request ID: xxxxxxxxxxxxxxx/xxxxxxxx我们已经在k8s中创建了一个服务帐户,并添加了注释作为IAM角色。(IAM角色访问在aws中创建的s3 )我们看到它可以从s3复制文件,但是在作业中得到了这个错误,无法找出根本原因。
注:火花版本2.2.1 hadoop版本: 2.7.4
谢谢
发布于 2022-11-25 14:55:16
这是基于八年的hadoop二进制文件,包括s3a连接器的spark的五年版本。“一些用于获取iam角色的绑定逻辑根本不存在。
升级到使用完整的hadoop-3.3.4 jars来触发3.3.x,然后再试一次。
(请注意,“使用最近的版本”是开源应用程序问题的第一步,如果您提交错误报告,这将是第一个需要的操作)
https://stackoverflow.com/questions/74570574
复制相似问题