首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >PySpark -读取SequenceFile并将其转换为DataFrame

PySpark -读取SequenceFile并将其转换为DataFrame
EN

Stack Overflow用户
提问于 2020-11-05 06:19:21
回答 1查看 69关注 0票数 0

我在HDFS中有一个SequenceFile,我想转换成一个数据帧并插入到一个表中。我在转换部分遇到了一些麻烦。

我有这样的代码:

代码语言:javascript
复制
myseqFile = sc.sequenceFile("/user/sequencefile")

我得到了以下结构:

代码语言:javascript
复制
(u' 10', u' 10,34,Center,Tatic')

我需要获取以下数据帧:

代码语言:javascript
复制
10,10,34,Center,Tatic

为此,我尝试使用以下代码:

代码语言:javascript
复制
res=myseqFile .map(lambda x: tuple(x)).map(lambda x: str(x).split(",")).map(lambda x: (x[0],x[1],x[2],x[3],x[4]))

但我还是得到了相同的结果:

代码语言:javascript
复制
(u' 10', u' 10,34,Center,Tatic')

如何获得所需的输出?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-05 06:34:45

可能是这样的:

代码语言:javascript
复制
res=myseqFile .map(lambda x: x[0] + ',' + x[1]).map(lambda x: str(x).split(",")).map(lambda x: (x[0],x[1],x[2],x[3],x[4]))
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64688533

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档