S3DistCp (如果使用Amazon EMR) ? 此解决方案仅适用于Amazon EMR的用户,当然你在AWS中使用CDH也一样。 即使使用S3,依旧存在小文件问题,所以这时需要选择S3DistCp。 S3DistCp是由Amazon提供的一个工具,用于分布式将S3中的数据拷贝到临时的HDFS或其他S3 bucket。 S3DistCp通过连接许多小文件并导入到HDFS中,据报道,该方式的性能也非常优秀。 S3DistCp这个工具跟之前文章提到的批量合并文件的方法其实是类似的,只是说Amazon给你提供了一个现成的工具。
no resourcemanager to stop 2.4.4 参考文档 [1] AWS EMR S3DistCp: The auxService:mapreduce_shuffle does not