文章/答案/技术大牛

发布

社区首页 >问答首页 >将Dataset[Array[String]]转换为Dataset[MyCaseClass]

问将Dataset[Array[String]]转换为Dataset[MyCaseClass]
EN

Stack Overflow用户

提问于 2017-04-02 21:52:26

回答 1查看 722关注 0票数 0

我正在处理一个csv文件，如下所示

"age;""job"";""marital"""
"58;""management"";""married"""
"44;""technician"";""single"""

由于额外的引号，spark.read.csv没有提供干净的列。因此，我想使用spark.read.textFile，这给了DatasetString。我使用下面的代码删除引号并拆分它们。

case class MyCaseClass(age: String, job: String, marital: String)
val inputDS = spark.read.textFile(inpPath)
val cleanDS = inputDS.map(_.replaceAll(""""""", "").split(";"))
val seperatedDS = cleanDS.as[MyCaseClass] //fails

是否有实现这种数据集转换的方法，还是将数据集拆分为多列的更好方法？目前，我正在使用RDD来完成这项工作，但是我想知道Dataset/Dataframe的方法。

apache-spark

spark-dataframe

apache-spark-dataset

scala

csv

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-04-02 22:10:15

您可以从每个拆分行构造一个MyCaseClass记录，以便您拥有RDD[MyCaseClass]，然后可以直接将其转换为数据帧：

val cleanDS = inputDS.map(line => {
  val fields = line.replaceAll("\"", "").split(";")
  MyCaseClass(fields(0), fields(1), fields(2))
})

cleanDS
// res37: org.apache.spark.sql.Dataset[MyCaseClass] = [age: string, job: string ... 1 more field]

cleanDS.toDF.show
+---+----------+-------+
|age|       job|marital|

+---+----------+-------+
|age|       job|marital|
| 58|management|married|
| 44|technician| single|
+---+----------+-------+

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43173942

复制

相似问题

问将Dataset[Array[String]]转换为Dataset[MyCaseClass]
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将Dataset[Array[String]]转换为Dataset[MyCaseClass]EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将Dataset[Array[String]]转换为Dataset[MyCaseClass]
EN