我创建了rdd = sc.parallelize(range(200))。然后我设置了rdd2 = rdd.cartesian(rdd)。不出所料,我发现rdd2.count()为40,000。然而,当我设置rdd3 = rdd2.cartesian(rdd)时,rdd3.count()还不到20,000。为什么会这样呢?
发布于 2016-11-10 07:33:17
这是SPARK-16589跟踪到的错误。
https://stackoverflow.com/questions/37217735
复制相似问题