我想将非半结构化数据(MS word/PDF/JSON)从远程计算机传输到hadoop(可能是批处理的,可能是接近实时的,但不是流的)。
我必须确保将数据从远程位置快速移动到我的本地计算机(低带宽工作)到HDFS或本地计算机。例如,Internet Download Manager有这个惊人的技术,可以与FTP建立多个连接,并通过更多的连接来利用低带宽。
hadoop生态系统是否有可能提供这样一种工具来将数据注入Hadoop。或者任何自制的技术?
哪种工具/技术可以更好。
发布于 2015-08-20 19:13:02
您可以使用Web HDFS API http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html#Document_Conventions
https://stackoverflow.com/questions/32115785
复制相似问题