首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >hadoop、-put和hadoop的区别

hadoop、-put和hadoop的区别
EN

Stack Overflow用户
提问于 2017-03-30 09:19:35
回答 4查看 4.6K关注 0票数 7

我们将在我们的数据湖项目中完成摄入阶段,在我的Hadoop开发经验中,我主要使用了hadoop fs -put。那么,hadoop distcp和用法有什么区别呢?

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2017-03-30 09:40:50

是一种特殊的工具,用于将数据从一个集群复制到另一个集群。基本上,您通常从一个hdfs复制到hdfs,而不是本地文件系统。另一件非常重要的事情是,作为一个带有0减任务的mapreduce作业所完成的过程,由于操作的分布,使得它更快。它将文件和目录的列表扩展到输入中,以映射任务,每个任务都将复制源列表中指定的文件的分区。

-将数据从本地系统复制到hdfs。在场景后面使用hdfs客户端,并通过访问NameNode和Datanodes依次完成所有工作。不创建用于处理数据的MapReduce作业。

票数 9
EN

Stack Overflow用户

发布于 2018-06-20 02:11:22

hdfs或hadoop 用于从本地到HDFS文件系统中的数据摄取

distcp不能用于从本地到HDFS的数据摄取,因为它只在HDFS文件系统上工作

我们广泛使用distcp (归档)备份和恢复HDFS文件,如下所示

hadoop distcp $CURRENT_HDFS_PATH $BACKUP_HDFS_PATH

票数 0
EN

Stack Overflow用户

发布于 2018-11-08 12:10:01

"distcp不能用于从本地到HDFS的数据摄取,因为它只工作在HDFS文件系统“-> it can,使用"file”(例如。"file:///tmp/test.txt")作为URL中的模式(https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/FileSystemShell.html)

提示:使用"hadoop dfs.replication=1“可以减少复制操作期间的distcp进程时间,然后复制复制的文件。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43113525

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档