我想每天从雅虎/谷歌金融公司( yahoo/google finance )获取数据,这些数据与股票的爆炸物处理价格有关。这些价格应该直接存储在HDFS文件中。
稍后,我可以在其之上创建外部表(使用HIVE),并用于进一步的分析。
因此,我并不是在寻找基本的map-还原,因为我没有任何这样的输入文件。在python中是否有可以用Hadoop编写数据的连接器?
发布于 2015-08-08 19:47:03
从将数据转储到本地文件开始。然后找到一种将文件上传到HDFS的方法。
hdfs dfs -put data.txt /user/johndoe/some/hdfs/dir/
curl命令行)连接到HDFS REST服务--可能是either webHDFS or httpFS,这取决于集群的设置方式--并使用PUT请求上载文件。
http://namenode:port/webhdfs/v1/user/johndoe/some/hdfs/dir/data.txt?op=CREATE&overwrite=false(当然,"data.txt“的内容是有效载荷)
https://stackoverflow.com/questions/31857101
复制相似问题