问Apache Spark RDD独特的-奇怪的行为
EN

Stack Overflow用户

提问于 2015-04-07 01:37:38

回答 1查看 228关注 0票数 2

我有一台80'000号的pairRDD。只有1.5%的条目是唯一的。为了过滤掉复制的数据，我调用了distinct方法：

val newRDD = oldRDD.distinct

然而，这只删除了大部分重复数据-它为每个唯一条目留下了3-5个副本！

我检查了剩下的条目和原始条目，它们是完全相同的。

Sample of the original data:

(1,(0.0500937328554143, 0.9000767961093774))
(1,(0.0500937328554143, 0.9000767961093774))
(1,(0.0500937328554143, 0.9000767961093774))

Sample of the distinct data:

(1,(0.0500937328554143, 0.9000767961093774))
(1,(0.0500937328554143, 0.9000767961093774))
(1,(0.0500937328554143, 0.9000767961093774))

关于distinct的工作原理，我是不是遗漏了什么？

scala

apache-spark

rdd

回答 1

Stack Overflow用户

发布于 2015-04-07 02:33:28

这些数字在转换为字符串后比较相等，但根据distinct处理它们的方式，它们在转换之前一定不能比较相等。检查比较结果(==)，而不是打印它们。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/29476404

复制

相似问题

问Apache Spark RDD独特的-奇怪的行为
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Spark RDD独特的-奇怪的行为EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Spark RDD独特的-奇怪的行为
EN