它们之间的区别是什么
hadoop distcp和
hadoop distcp -update它们都会做同样的工作,只是我们对它们的叫法略有不同。它们都不会覆盖目标中已存在的文件。那么在两组不同的命令中有什么意义呢?
发布于 2011-01-07 14:11:47
distcp和distcp -update之间的不同之处在于,默认情况下,distcp会跳过文件,而"distcp -update“会在src大小不同于dst大小的情况下更新文件。
这在文档中有点混乱,因为distcp的默认性质是跳过文件是否存在以防止冲突。
文档中的:
如前所述,这不是“同步”操作。检查的唯一标准是源文件和目标文件的大小;如果它们不同,则源文件将替换目标文件。
请记住,-update不是像rsync那样的增量-xfer算法,它只执行大小检查,当文件大小相同而数据不同时,这并不完美。
我还应该详细解释一下,无论文件大小是否匹配,distcp -overwrite都会覆盖该文件。这是一个破坏性的过程,所以要确保你真的想这么做。
在这里可以找到一些很好的例子:http://hadoop.apache.org/common/docs/r0.19.2/distcp.html#uo
我还想举例说明我在两个集群之间的同步操作中所做的工作:
hadoop distcp -pugp -i -delete -update hftp://hdfs-nn1:50070/clustera hdfs://hdfs-nn2:9000/clustera这将更新hdfs-nn2中与hdfs-nn1的大小不匹配的所有文件,并删除任何无关的文件。如果使用的是.Trash,那么任何被删除的文件都会被放入调用distcp的用户的垃圾桶中。
我会尝试一下,这样你就可以看到各种命令的效果,因为当你不小心清除了TB级的数据时,这可能会很痛苦,所以一定要使用你的垃圾桶。
https://stackoverflow.com/questions/4610964
复制相似问题