我正在学习一个教程,其中我使用的是Cloudera VM。hadoop堆栈已预安装在虚拟机中。每当我必须执行操作时,我必须将文件从VM文件系统传输到HDFS,在我看来,将所有文件从本机文件系统(在我的示例中为VM本机文件系统)复制到HDFS会产生一定的开销。
hdfs dfs -put <FILE_IN_VM_FS> <FILE_IN_HDFS>HDFS在工业环境中是否作为本机文件系统运行,或者以上提到的方法是这样做的事实。
发布于 2015-09-18 04:23:54
使用HDFS不能跳过这个过程。在HDFS中存储文件意味着几个步骤,例如,如果文件大于块大小,则在块中拆分文件,在namenode中生成记录以存储与文件块相关的所有元数据,创建所需的副本,等等。即使您只使用一个节点,HDFS也被设计为在分布式环境中工作。
https://stackoverflow.com/questions/32638949
复制相似问题