文章/答案/技术大牛

发布

社区首页 >问答首页 >Spark二进制数据源与sc.binaryFiles

问Spark二进制数据源与sc.binaryFiles
EN

Stack Overflow用户

提问于 2020-06-26 20:23:45

回答 1查看 602关注 0票数 1

Spark 3.0支持使用新的data source读取二进制数据

val df = spark.read.format(“binaryFile”).load("/path/to/data")

使用以前的spark版本，您可以使用以下方式云加载数据：

val rdd = sc.binaryFiles("/path/to/data")

除了可以选择使用High-Level API (Dataset)访问二进制数据之外，Spark3.0还引入了其他什么好处或特性吗？

发布于 2020-06-26 21:50:27

我认为除了开发人员使用高级API (Dataframe/ Dataset)比低级API (RDD)可以更多地控制数据之外，我不认为有任何额外的好处，而且他们不需要担心性能，因为它由高级API自己很好地优化/管理。

附注:我确实认为我的回答不符合正式回答的要求。我早些时候想将它添加为仅评论，但无法这样做，因为我还没有获得评论的特权。:)

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62594687

复制

相似问题

问Spark二进制数据源与sc.binaryFilesEN