我正在处理一个csv文件,如下所示
"age;""job"";""marital"""
"58;""management"";""married"""
"44;""technician"";""single"""由于额外的引号,spark.read.csv没有提供干净的列。因此,我想使用spark.read.textFile,这给了DatasetString。我使用下面的代码删除引号并拆分它们。
case class MyCaseClass(age: String, job: String, marital: String)
val inputDS = spark.read.textFile(inpPath)
val cleanDS = inputDS.map(_.replaceAll(""""""", "").split(";"))
val seperatedDS = cleanDS.as[MyCaseClass] //fails是否有实现这种数据集转换的方法,还是将数据集拆分为多列的更好方法?目前,我正在使用RDD来完成这项工作,但是我想知道Dataset/Dataframe的方法。
发布于 2017-04-02 22:10:15
您可以从每个拆分行构造一个MyCaseClass记录,以便您拥有RDD[MyCaseClass],然后可以直接将其转换为数据帧:
val cleanDS = inputDS.map(line => {
val fields = line.replaceAll("\"", "").split(";")
MyCaseClass(fields(0), fields(1), fields(2))
})
cleanDS
// res37: org.apache.spark.sql.Dataset[MyCaseClass] = [age: string, job: string ... 1 more field]
cleanDS.toDF.show
+---+----------+-------+
|age| job|marital|
+---+----------+-------+
|age| job|marital|
| 58|management|married|
| 44|technician| single|
+---+----------+-------+https://stackoverflow.com/questions/43173942
复制相似问题