首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spark二进制数据源与sc.binaryFiles

Spark二进制数据源与sc.binaryFiles
EN

Stack Overflow用户
提问于 2020-06-26 20:23:45
回答 1查看 602关注 0票数 1

Spark 3.0支持使用新的data source读取二进制数据

代码语言:javascript
复制
val df = spark.read.format(“binaryFile”).load("/path/to/data")

使用以前的spark版本,您可以使用以下方式云加载数据:

代码语言:javascript
复制
val rdd = sc.binaryFiles("/path/to/data")

除了可以选择使用High-Level API (Dataset)访问二进制数据之外,Spark3.0还引入了其他什么好处或特性吗?

EN

回答 1

Stack Overflow用户

发布于 2020-06-26 21:50:27

我认为除了开发人员使用高级API (Dataframe/ Dataset)比低级API (RDD)可以更多地控制数据之外,我不认为有任何额外的好处,而且他们不需要担心性能,因为它由高级API自己很好地优化/管理。

参考- https://spark.apache.org/docs/3.0.0-preview/sql-data-sources-binaryFile.html

附注:我确实认为我的回答不符合正式回答的要求。我早些时候想将它添加为仅评论,但无法这样做,因为我还没有获得评论的特权。:)

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62594687

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档