首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >HDFS:从HDFS读取数据,使用Python3解析HDFS中的XML文件。

HDFS:从HDFS读取数据,使用Python3解析HDFS中的XML文件。
EN

Stack Overflow用户
提问于 2018-12-04 03:29:17
回答 2查看 413关注 0票数 2

我在HDFS中有大约1500个XML文件,每个文件大约2-3 3Gb。我需要编写一个python脚本来解析XML文件来执行MapReduce。然而,我在使用python访问HDFS中的文件时遇到了问题。

我尝试了以下脚本,但收到一个错误。

代码语言:javascript
复制
from snakebite.client import Client
def connection():
hadoop_client = Client('HDFS_hostname', 'HDFS_port', use_trash=False)
for x in hadoop_client.ls(['/']):
    print(x)

以下是错误:

代码语言:javascript
复制
Traceback (most recent call last):
  File "/home/ubuntu/PycharmProjects/textmining/read_data_from_HDFS.py", line 5, in <module>
    from snakebite.client import Client
  File "/usr/local/lib/python3.6/dist-packages/snakebite/client.py", line 1473
    baseTime = min(time * (1L << retries), cap);
                            ^
SyntaxError: invalid syntax

使用python从HDFS访问文件的最佳推荐方式是什么?

EN

回答 2

Stack Overflow用户

发布于 2020-04-07 20:42:09

代码语言:javascript
复制
pip install snakebite-py3 

这将帮助你解决这个问题...

票数 1
EN

Stack Overflow用户

发布于 2019-01-22 21:30:10

我遇到了同样的问题。蛇咬伤不能与python 3.x兼容,你可以在python 2中使用它。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53600582

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档