文章/答案/技术大牛

发布

社区首页 >问答首页 >从rdd到dataframe转换时超出范围的索引

问从rdd到dataframe转换时超出范围的索引
EN

Stack Overflow用户

提问于 2016-07-11 10:22:06

回答 2查看 1.6K关注 0票数 1

我正试图将星火RDD转换为dataframe。虽然RDD很好，但当我将它转换为dataframe时，就会得到超出范围误差的索引。

alarms = sc.textFile("hdfs://nanalyticsedge.com:8020/hdp/oneday.csv")
alarms = alarms.map(lambda line: line.split(","))
header = alarms.first()
alarms = alarms.filter(lambda line:line != header)
alarms = alarms.filter(lambda line: len(line)>1)
alarms_df = alarms.map(lambda line: Row(IDENTIFIER=line[0],SERIAL=line[1],NODE=line[2],NODEALIAS=line[3],MANAGER=line[4],AGENT=line[5],ALERTGROUP=line[6],ALERTKEY=line[7],SEVERITY=line[8],SUMMARY=line[9])).toDF()
alarms_df.take(100)

在这里，alarms.count()工作得很好，而alarms_df.count()给出的索引超出了范围。是从oracle导出的数据。

从@Dikei的回答中我发现：

alarms = alarms.filter(lambda line: len(line) == 10)

给我正确的Dataframe，但是为什么dataframe在数据库导出时会丢失，以及如何防止它？

apache-spark

pyspark-sql

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-07-11 10:33:06

我认为问题是，您的一些行不包含10个元素。很容易检查，试着改变一下

alarms = alarms.filter(lambda line: len(line)>1)

至

alarms = alarms.filter(lambda line: len(line) == 10)

票数 3

Stack Overflow用户

发布于 2016-07-11 13:50:49

没有提到索引的数据。尝试这样的方法，如果数组有超过9个print 10元素

myData.foreach { x => if(x.size.!=(9)){println(x(10))}  }

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38304541

复制

相似问题

问从rdd到dataframe转换时超出范围的索引
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从rdd到dataframe转换时超出范围的索引EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从rdd到dataframe转换时超出范围的索引
EN