首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Spark/hadoop访问s3a时出错

使用Spark/hadoop访问s3a时出错
EN

Stack Overflow用户
提问于 2022-11-25 09:24:22
回答 1查看 33关注 0票数 0

我已经通过k8s代理容器在坞中配置了Hadoop和spark,我们使用它来运行Jenkins作业,我们使用AWS。但是,在运行星火提交作业时,我们会得到以下错误

代码语言:javascript
复制
py4j.protocol.Py4JJavaError: An error occurred while calling o40.exists.
 com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 403, AWS Service: Amazon S3, AWS Request ID: xxxxxxxxx, AWS Error Code: null, AWS Error Message: Forbidden, S3 Extended Request ID: xxxxxxxxxxxxxxx/xxxxxxxx

我们已经在k8s中创建了一个服务帐户,并添加了注释作为IAM角色。(IAM角色访问在aws中创建的s3 )我们看到它可以从s3复制文件,但是在作业中得到了这个错误,无法找出根本原因。

注:火花版本2.2.1 hadoop版本: 2.7.4

谢谢

EN

回答 1

Stack Overflow用户

发布于 2022-11-25 14:55:16

这是基于八年的hadoop二进制文件,包括s3a连接器的spark的五年版本。“一些用于获取iam角色的绑定逻辑根本不存在。

升级到使用完整的hadoop-3.3.4 jars来触发3.3.x,然后再试一次。

(请注意,“使用最近的版本”是开源应用程序问题的第一步,如果您提交错误报告,这将是第一个需要的操作)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74570574

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档