首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spark Scala - textFile()和sequenceFile() RDDs

Spark Scala - textFile()和sequenceFile() RDDs
EN

Stack Overflow用户
提问于 2017-11-30 08:58:53
回答 0查看 1.9K关注 0票数 0

我使用如下代码成功地将我的序列文件加载到DataFrame中:

代码语言:javascript
复制
val sc = new SparkContext(conf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
sc.sequenceFile[LongWritable,String](src)
val jsonRecs = file.map((record: (String, String)) => new String(record._2))
val df = sqlContext.read.json(jsonRecs)

我想对一些文本文件做同样的事情。文本文件具有与序列文件类似的格式(时间戳、制表符字符,然后是json)。但问题是textFile()返回一个RDDString,而不是像sequenceFile()方法那样的RDDLongWritable字符串。

我的目标是能够使用序列文件或文本文件作为输入来测试程序。

如何将来自textFile()的RDDString转换为RDDLongWritable,String?或者有更好的解决方案?

EN

回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47564298

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档