我们将在我们的数据湖项目中完成摄入阶段,在我的Hadoop开发经验中,我主要使用了hadoop fs -put。那么,hadoop distcp和用法有什么区别呢?
发布于 2017-03-30 09:40:50
是一种特殊的工具,用于将数据从一个集群复制到另一个集群。基本上,您通常从一个hdfs复制到hdfs,而不是本地文件系统。另一件非常重要的事情是,作为一个带有0减任务的mapreduce作业所完成的过程,由于操作的分布,使得它更快。它将文件和目录的列表扩展到输入中,以映射任务,每个任务都将复制源列表中指定的文件的分区。
-将数据从本地系统复制到hdfs。在场景后面使用hdfs客户端,并通过访问NameNode和Datanodes依次完成所有工作。不创建用于处理数据的MapReduce作业。
发布于 2018-06-20 02:11:22
hdfs或hadoop 用于从本地到HDFS文件系统中的数据摄取
distcp不能用于从本地到HDFS的数据摄取,因为它只在HDFS文件系统上工作
我们广泛使用distcp (归档)备份和恢复HDFS文件,如下所示
hadoop distcp $CURRENT_HDFS_PATH $BACKUP_HDFS_PATH
发布于 2018-11-08 12:10:01
"distcp不能用于从本地到HDFS的数据摄取,因为它只工作在HDFS文件系统“-> it can,使用"file”(例如。"file:///tmp/test.txt")作为URL中的模式(https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/FileSystemShell.html)
提示:使用"hadoop dfs.replication=1“可以减少复制操作期间的distcp进程时间,然后复制复制的文件。
https://stackoverflow.com/questions/43113525
复制相似问题