文章/答案/技术大牛

发布

社区首页 >问答首页 >从星火呼叫distcp

问从星火呼叫distcp
EN

Stack Overflow用户

提问于 2018-01-16 18:01:34

回答 2查看 4.6K关注 0票数 1

有人能告诉我什么是从HDFS复制文件到S3的最健壮的方式吗？

我正在考虑两种选择：

I.直接拨打distcp，如下所示：

  distcp_arglist =['/usr/lib/hadoop/bin/hadoop','distcp',
                  ...,
                  '-overwrite',
                   src_path, dest_path]

二.使用s3-distcp --这似乎涉及得更多一些。https://gist.github.com/okomestudio/699edbb8e095f07bafcc

欢迎任何建议。谢谢。

hadoop

apache-spark

amazon-s3

pyspark

回答 2

Stack Overflow用户

发布于 2018-01-17 13:42:01

我要指出我的一点代码，云彩

这是在spark中实现distCp概念的基本证明。

单个文件是通过星火调度程序调度的；对于0字节文件不是理想的，但是在一个节点之外的一个大文件中停止执行任务。
是否通过一个特殊的RDD执行局部性，它以不同的方式计算每一行(即文件)的位置(必须在org.apache.spark包中进行作用域访问)
演示如何在星星图中执行FS操作。
调整输入以获得一点随机性
在RDD中收集结果

不需要：*增量写入(无论如何不能比较HDFS和S3之间的校验和，但是它可以在复制之前检查fs.exists(path)。*许可。S3没有让他们*节流*调度大文件的第一。你应该这么做。*工作失败的恢复(未增加，见)

就像我说的，PoC说：“我们更灵活，用火花做重物。”

不管怎么说，拿着它玩，只要你不介意使用scala编码，你就可以轻松地在现有的星火环境中操作它。

票数 2

Stack Overflow用户

发布于 2018-01-16 19:26:08

Distcp可能是可行的，因为它是在集群之间传输数据的行之有效的解决方案。我想任何可能的替代方案都会做一些类似的事情--为数据传输创建mapreduce就业机会。这里的重点是如何为您的特定数据调优此过程，因为它可能真的取决于许多因素，如网络或地图减少设置。我建议您阅读HortonWorks 文章关于如何优化此过程的内容。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48287298

复制

相似问题

问从星火呼叫distcp
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从星火呼叫distcpEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从星火呼叫distcp
EN