首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache Spark RDD独特的-奇怪的行为

Apache Spark RDD独特的-奇怪的行为
EN

Stack Overflow用户
提问于 2015-04-07 01:37:38
回答 1查看 228关注 0票数 2

我有一台80'000号的pairRDD。只有1.5%的条目是唯一的。为了过滤掉复制的数据,我调用了distinct方法:

代码语言:javascript
复制
val newRDD = oldRDD.distinct

然而,这只删除了大部分重复数据-它为每个唯一条目留下了3-5个副本!

我检查了剩下的条目和原始条目,它们是完全相同的。

代码语言:javascript
复制
Sample of the original data:

(1,(0.0500937328554143, 0.9000767961093774))
(1,(0.0500937328554143, 0.9000767961093774))
(1,(0.0500937328554143, 0.9000767961093774))

Sample of the distinct data:

(1,(0.0500937328554143, 0.9000767961093774))
(1,(0.0500937328554143, 0.9000767961093774))
(1,(0.0500937328554143, 0.9000767961093774))

关于distinct的工作原理,我是不是遗漏了什么?

EN

回答 1

Stack Overflow用户

发布于 2015-04-07 02:33:28

这些数字在转换为字符串后比较相等,但根据distinct处理它们的方式,它们在转换之前一定不能比较相等。检查比较结果(==),而不是打印它们。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29476404

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档