首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >'distcp‘和'distcp -update’之间的区别?

'distcp‘和'distcp -update’之间的区别?
EN

Stack Overflow用户
提问于 2011-01-06 09:23:50
回答 1查看 14.7K关注 0票数 7

它们之间的区别是什么

代码语言:javascript
复制
hadoop distcp

代码语言:javascript
复制
hadoop distcp -update

它们都会做同样的工作,只是我们对它们的叫法略有不同。它们都不会覆盖目标中已存在的文件。那么在两组不同的命令中有什么意义呢?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-01-07 14:11:47

distcp和distcp -update之间的不同之处在于,默认情况下,distcp会跳过文件,而"distcp -update“会在src大小不同于dst大小的情况下更新文件。

这在文档中有点混乱,因为distcp的默认性质是跳过文件是否存在以防止冲突。

文档中的

如前所述,这不是“同步”操作。检查的唯一标准是源文件和目标文件的大小;如果它们不同,则源文件将替换目标文件。

请记住,-update不是像rsync那样的增量-xfer算法,它只执行大小检查,当文件大小相同而数据不同时,这并不完美。

我还应该详细解释一下,无论文件大小是否匹配,distcp -overwrite都会覆盖该文件。这是一个破坏性的过程,所以要确保你真的想这么做。

在这里可以找到一些很好的例子:http://hadoop.apache.org/common/docs/r0.19.2/distcp.html#uo

我还想举例说明我在两个集群之间的同步操作中所做的工作:

代码语言:javascript
复制
hadoop distcp -pugp -i -delete -update hftp://hdfs-nn1:50070/clustera hdfs://hdfs-nn2:9000/clustera

这将更新hdfs-nn2中与hdfs-nn1的大小不匹配的所有文件,并删除任何无关的文件。如果使用的是.Trash,那么任何被删除的文件都会被放入调用distcp的用户的垃圾桶中。

我会尝试一下,这样你就可以看到各种命令的效果,因为当你不小心清除了TB级的数据时,这可能会很痛苦,所以一定要使用你的垃圾桶。

票数 16
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4610964

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档