问使用Spark/hadoop访问s3a时出错
EN

Stack Overflow用户

提问于 2022-11-25 09:24:22

回答 1查看 33关注 0票数 0

我已经通过k8s代理容器在坞中配置了Hadoop和spark，我们使用它来运行Jenkins作业，我们使用AWS。但是，在运行星火提交作业时，我们会得到以下错误

py4j.protocol.Py4JJavaError: An error occurred while calling o40.exists.
 com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 403, AWS Service: Amazon S3, AWS Request ID: xxxxxxxxx, AWS Error Code: null, AWS Error Message: Forbidden, S3 Extended Request ID: xxxxxxxxxxxxxxx/xxxxxxxx

我们已经在k8s中创建了一个服务帐户，并添加了注释作为IAM角色。(IAM角色访问在aws中创建的s3 )我们看到它可以从s3复制文件，但是在作业中得到了这个错误，无法找出根本原因。

注:火花版本2.2.1 hadoop版本: 2.7.4

谢谢

amazon-s3

apache-spark

回答 1

Stack Overflow用户

发布于 2022-11-25 14:55:16

这是基于八年的hadoop二进制文件，包括s3a连接器的spark的五年版本。“一些用于获取iam角色的绑定逻辑根本不存在。

升级到使用完整的hadoop-3.3.4 jars来触发3.3.x，然后再试一次。

(请注意，“使用最近的版本”是开源应用程序问题的第一步，如果您提交错误报告，这将是第一个需要的操作)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74570574

复制

相似问题

问使用Spark/hadoop访问s3a时出错
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Spark/hadoop访问s3a时出错EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Spark/hadoop访问s3a时出错
EN