我在一个EMR集群上使用S3DistCp,以便将大约200K个小文件(总共3.4 S3 )从一个S3存储桶聚合到同一存储桶中的另一个路径。它正在工作,但速度非常慢(超过20分钟后传输了大约600MB )。
以下是我的EMR配置:
1 master m5.xlarge
3 cores m5.xlarge
release label 5.29.0命令:
s3-dist-cp --s3Endpoint=s3-eu-central-1.amazonaws.com --src=s3://my-bucket/input/ --dest=s3://my-bucket/output/ --groupBy=.*input/(entry).*(.json.gz) --targetSize=128我是不是漏掉了什么?我读到过S3DistCp可以在一眨眼的时间里传输很多文件,但我不知道是怎么回事。顺便说一下,EMR和bucket在同一个地域。
谢谢。
发布于 2020-10-12 01:03:57
以下是推荐
越小
https://stackoverflow.com/questions/62225577
复制相似问题