问Spark摄取路径："Source to Driver to Worker“或"Source to Worker”
EN

Stack Overflow用户

提问于 2017-08-08 06:59:29

回答 1查看 17关注 0票数 0

当Spark摄取数据时，有没有特定的情况，它必须通过driver，然后从driver到worker？同样的问题也适用于工作人员的直接读取。

我想我只是想弄清楚导致这种或另一种方式的条件或情况是什么，以及在每种情况下分区是如何发生的。

发布于 2017-08-08 07:09:09

如果您将自己限制为使用内置方法，那么除非您使用如下方法从本地数据结构创建分布式数据结构：

数据始终由工作人员直接访问，但数据分布的详细信息将因源而异。

RDDs通常依赖于Hadoop输入格式，但Spark SQL和数据源API至少在配置方面是部分独立的，

这并不意味着数据总是正确分布的。在某些情况下(JDBC、流接收器)，数据可能仍然通过单个节点进行管道传输。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45556869

复制

相似问题

问Spark摄取路径："Source to Driver to Worker“或"Source to Worker”EN