我使用如下代码成功地将我的序列文件加载到DataFrame中:
val sc = new SparkContext(conf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
sc.sequenceFile[LongWritable,String](src)
val jsonRecs = file.map((record: (String, String)) => new String(record._2))
val df = sqlContext.read.json(jsonRecs)我想对一些文本文件做同样的事情。文本文件具有与序列文件类似的格式(时间戳、制表符字符,然后是json)。但问题是textFile()返回一个RDDString,而不是像sequenceFile()方法那样的RDDLongWritable字符串。
我的目标是能够使用序列文件或文本文件作为输入来测试程序。
如何将来自textFile()的RDDString转换为RDDLongWritable,String?或者有更好的解决方案?
https://stackoverflow.com/questions/47564298
复制相似问题