有人能告诉我什么是从HDFS复制文件到S3的最健壮的方式吗?
我正在考虑两种选择:
I.直接拨打distcp,如下所示:
distcp_arglist =['/usr/lib/hadoop/bin/hadoop','distcp',
...,
'-overwrite',
src_path, dest_path]二.使用s3-distcp --这似乎涉及得更多一些。https://gist.github.com/okomestudio/699edbb8e095f07bafcc
欢迎任何建议。谢谢。
发布于 2018-01-17 13:42:01
我要指出我的一点代码,云彩
这是在spark中实现distCp概念的基本证明。
不需要:*增量写入(无论如何不能比较HDFS和S3之间的校验和,但是它可以在复制之前检查fs.exists(path)。*许可。S3没有让他们*节流*调度大文件的第一。你应该这么做。*工作失败的恢复(未增加,见)
就像我说的,PoC说:“我们更灵活,用火花做重物。”
不管怎么说,拿着它玩,只要你不介意使用scala编码,你就可以轻松地在现有的星火环境中操作它。
发布于 2018-01-16 19:26:08
Distcp可能是可行的,因为它是在集群之间传输数据的行之有效的解决方案。我想任何可能的替代方案都会做一些类似的事情--为数据传输创建mapreduce就业机会。这里的重点是如何为您的特定数据调优此过程,因为它可能真的取决于许多因素,如网络或地图减少设置。我建议您阅读HortonWorks 文章关于如何优化此过程的内容。
https://stackoverflow.com/questions/48287298
复制相似问题