文章/答案/技术大牛

发布

社区首页 >问答首页 >PySpark groupByKey返回pyspark.resultiterable.ResultIterable

问PySpark groupByKey返回pyspark.resultiterable.ResultIterable
EN

Stack Overflow用户

提问于 2015-04-18 12:18:49

回答 6查看 64.1K关注 0票数 61

我试图弄清楚为什么我的groupByKey返回以下内容：

[(0, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a210>), (1, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a4d0>), (2, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a390>), (3, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a290>), (4, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a450>), (5, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a350>), (6, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a1d0>), (7, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a490>), (8, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a050>), (9, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a650>)]

我的flatMapped值如下所示：

[(0, u'D'), (0, u'D'), (0, u'D'), (0, u'D'), (0, u'D'), (0, u'D'), (0, u'D'), (0, u'D'), (0, u'D'), (0, u'D')]

我只是在做一个简单的：

groupRDD = columnRDD.groupByKey()

python

apache-spark

pyspark

回答 6

Stack Overflow用户

回答已采纳

发布于 2015-04-18 14:52:02

您要返回的是一个对象，它允许您迭代结果。通过对值调用list()，可以将groupByKey的结果转换为列表。

example = sc.parallelize([(0, u'D'), (0, u'D'), (1, u'E'), (2, u'F')])

example.groupByKey().collect()
# Gives [(0, <pyspark.resultiterable.ResultIterable object ......]

example.groupByKey().map(lambda x : (x[0], list(x[1]))).collect()
# Gives [(0, [u'D', u'D']), (1, [u'E']), (2, [u'F'])]

票数 85

Stack Overflow用户

发布于 2015-06-28 23:15:56

您也可以使用

example.groupByKey().mapValues(list)

票数 31

Stack Overflow用户

发布于 2016-02-17 06:51:10

我建议您不要使用groupByKey()，而是使用cogroup()。您可以参考下面的示例。

[(x, tuple(map(list, y))) for x, y in sorted(list(x.cogroup(y).collect()))]

示例：

>>> x = sc.parallelize([("foo", 1), ("bar", 4)])
>>> y = sc.parallelize([("foo", -1)])
>>> z = [(x, tuple(map(list, y))) for x, y in sorted(list(x.cogroup(y).collect()))]
>>> print(z)

你应该得到想要的输出。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/29717257

复制

相似问题

问PySpark groupByKey返回pyspark.resultiterable.ResultIterable
EN

回答 6

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PySpark groupByKey返回pyspark.resultiterable.ResultIterableEN

回答 6

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PySpark groupByKey返回pyspark.resultiterable.ResultIterable
EN