首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >python和Hadoop -使用Python直接获取和写入数据到hdfs?

python和Hadoop -使用Python直接获取和写入数据到hdfs?
EN

Stack Overflow用户
提问于 2015-08-06 13:28:25
回答 1查看 2.6K关注 0票数 1

我想每天从雅虎/谷歌金融公司( yahoo/google finance )获取数据,这些数据与股票的爆炸物处理价格有关。这些价格应该直接存储在HDFS文件中。

稍后,我可以在其之上创建外部表(使用HIVE),并用于进一步的分析。

因此,我并不是在寻找基本的map-还原,因为我没有任何这样的输入文件。在python中是否有可以用Hadoop编写数据的连接器?

EN

回答 1

Stack Overflow用户

发布于 2015-08-08 19:47:03

从将数据转储到本地文件开始。然后找到一种将文件上传到HDFS的方法。

  • 如果您在"edge节点“上运行作业(即不是集群的一部分但安装和配置了所有Hadoop客户端的Linux框),那么您就有了良好的旧HDFS命令行接口。

hdfs dfs -put data.txt /user/johndoe/some/hdfs/dir/

  • 如果您在其他地方运行作业,请使用HTTP库(或良好的旧curl命令行)连接到HDFS REST服务--可能是either webHDFS or httpFS,这取决于集群的设置方式--并使用PUT请求上载文件。

http://namenode:port/webhdfs/v1/user/johndoe/some/hdfs/dir/data.txt?op=CREATE&overwrite=false (当然,"data.txt“的内容是有效载荷)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31857101

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档