首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >AWS EMR S3DistCp的性能问题

AWS EMR S3DistCp的性能问题
EN

Stack Overflow用户
提问于 2020-06-06 07:37:44
回答 1查看 236关注 0票数 0

我在一个EMR集群上使用S3DistCp,以便将大约200K个小文件(总共3.4 S3 )从一个S3存储桶聚合到同一存储桶中的另一个路径。它正在工作,但速度非常慢(超过20分钟后传输了大约600MB )。

以下是我的EMR配置:

代码语言:javascript
复制
1 master m5.xlarge
3 cores m5.xlarge
release label 5.29.0

命令:

代码语言:javascript
复制
s3-dist-cp --s3Endpoint=s3-eu-central-1.amazonaws.com --src=s3://my-bucket/input/ --dest=s3://my-bucket/output/ --groupBy=.*input/(entry).*(.json.gz) --targetSize=128

我是不是漏掉了什么?我读到过S3DistCp可以在一眨眼的时间里传输很多文件,但我不知道是怎么回事。顺便说一下,EMR和bucket在同一个地域。

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2020-10-12 01:03:57

以下是推荐

  1. 使用R型实例。它将提供比M类型实例更多的内存,使用coalesce来合并源代码中的文件,因为你有许多小文件
  2. 检查映射器任务的数量。任务越多,performance

越小

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62225577

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档