首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spark摄取路径:"Source to Driver to Worker“或"Source to Worker”

Spark摄取路径:"Source to Driver to Worker“或"Source to Worker”
EN

Stack Overflow用户
提问于 2017-08-08 06:59:29
回答 1查看 17关注 0票数 0

当Spark摄取数据时,有没有特定的情况,它必须通过driver,然后从driver到worker?同样的问题也适用于工作人员的直接读取。

我想我只是想弄清楚导致这种或另一种方式的条件或情况是什么,以及在每种情况下分区是如何发生的。

EN

回答 1

Stack Overflow用户

发布于 2017-08-08 07:09:09

如果您将自己限制为使用内置方法,那么除非您使用如下方法从本地数据结构创建分布式数据结构:

  • SparkSession.createDataset
  • SparkContext.parallelize

数据始终由工作人员直接访问,但数据分布的详细信息将因源而异。

RDDs通常依赖于Hadoop输入格式,但Spark SQL和数据源API至少在配置方面是部分独立的,

这并不意味着数据总是正确分布的。在某些情况下(JDBC、流接收器),数据可能仍然通过单个节点进行管道传输。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45556869

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档