我认为这个标题很大程度上概括了我在这里要做的事情。我有下面的代码
implicit val sc: SparkContext = spark.sparkContext
val result = RDD[RDD[GenericRecord]] = sc.parallelize(dates).map { date =>
val foo: RDD[GenericRecord] = readSomething(...)
foo
}我想将result转换为GenericRecord的RDD,但是foo不是Traversable,所以我可以使用flatMap。这里有什么想法吗?
发布于 2022-04-20 14:31:48
正如here所讨论的,Spark不支持嵌套的RDD。因此,即使我能够平面图,它也会在运行时失败。我最后所做的是:
implicit val sc: SparkContext = spark.sparkContext
val partials = IndexedSeq[RDD[GenericRecord]] = dates.map { date =>
val foo: RDD[GenericRecord] = readSomething(...)
foo
}
val result:RDD[GenericRecord] = sc.union(partials)https://stackoverflow.com/questions/71938638
复制相似问题