我有一个HDFS和我的本地系统,我在其中执行我的程序,以便在同一个hdfs系统中执行复制。喜欢:hadoop fs -cp /user/hadoop/SrcFile /user/hadoop/TgtFile
我使用的是:
FileUtil.copy(FileSystem srcFS,
FileStatus srcStatus,
FileSystem dstFS,
Path dst,
boolean deleteSource,
boolean overwrite,
Configuration conf) 但是发生了一些奇怪的事情,当我从命令行进行复制时,复制只需要一小段时间,但当我以编程方式复制190MB文件时,需要10 - 15分钟。
对我来说,它看起来像是通过我的本地系统流式传输数据,而不是直接流式传输,因为目标与源也在相同的文件系统上。
如果我错了,请纠正我,并帮助我找到最佳解决方案。
发布于 2016-11-14 06:56:08
你是对的,使用FileUtil.copy流传输通过你的程序(src -->你的程序--> dst)。如果hadoops文件系统shell API (hadoop dfs -cp)比您可以通过Runtime.exec(cmd)使用的更快
https://stackoverflow.com/questions/40541046
复制相似问题