当Spark摄取数据时,有没有特定的情况,它必须通过driver,然后从driver到worker?同样的问题也适用于工作人员的直接读取。
我想我只是想弄清楚导致这种或另一种方式的条件或情况是什么,以及在每种情况下分区是如何发生的。
发布于 2017-08-08 07:09:09
如果您将自己限制为使用内置方法,那么除非您使用如下方法从本地数据结构创建分布式数据结构:
SparkSession.createDatasetSparkContext.parallelize数据始终由工作人员直接访问,但数据分布的详细信息将因源而异。
RDDs通常依赖于Hadoop输入格式,但Spark SQL和数据源API至少在配置方面是部分独立的,
这并不意味着数据总是正确分布的。在某些情况下(JDBC、流接收器),数据可能仍然通过单个节点进行管道传输。
https://stackoverflow.com/questions/45556869
复制相似问题