Spark 3.0支持使用新的data source读取二进制数据
val df = spark.read.format(“binaryFile”).load("/path/to/data")使用以前的spark版本,您可以使用以下方式云加载数据:
val rdd = sc.binaryFiles("/path/to/data")除了可以选择使用High-Level API (Dataset)访问二进制数据之外,Spark3.0还引入了其他什么好处或特性吗?
发布于 2020-06-26 21:50:27
我认为除了开发人员使用高级API (Dataframe/ Dataset)比低级API (RDD)可以更多地控制数据之外,我不认为有任何额外的好处,而且他们不需要担心性能,因为它由高级API自己很好地优化/管理。
参考- https://spark.apache.org/docs/3.0.0-preview/sql-data-sources-binaryFile.html
附注:我确实认为我的回答不符合正式回答的要求。我早些时候想将它添加为仅评论,但无法这样做,因为我还没有获得评论的特权。:)
https://stackoverflow.com/questions/62594687
复制相似问题