首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >EMRFS S3-使用RDD和数据集时的优化提交器

EMRFS S3-使用RDD和数据集时的优化提交器
EN

Stack Overflow用户
提问于 2022-03-07 13:03:26
回答 1查看 281关注 0票数 0

我想使用EMRFS3优化的提交器。在火花电子病历中运行新步骤时,我将"spark.sql.parquet.fs.optimized.committer.optimization-enabled“设置为true。但我认为它没有使用优化的提交器(_SUCCESS是0字节)。EMR如何选择使用哪一个提交者?它能使用对数据集的优化和对RDD的未优化吗?因为我两个人都有相同的火花。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-03-10 10:22:25

优化的输出提交器是内置的EMR,默认情况下使用。AWS优化提交器只有在可能的情况下才被激活:在EMR 6.4.0之前,它只在某些条件下工作:“从Amazon 6.4.0开始,此提交器可以用于所有常见格式,包括parquet、ORC和基于文本的格式(包括CSV和JSON)。对于Amazon 6.4.0之前的发行版本,只支持AWS文档中的Parquet格式”。

对我来说,执行时间提高了50-60 %。

优化的提交者要求

_SUCCESS文件仍然是0字节。还有其他的OutputCommitters也会像神奇的提交者那样将内容写入其中,但不适合EMR,AWS建议不要使用他们

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71381509

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档