文章/答案/技术大牛

发布

社区首页 >问答首页 >获取嵌套列表中的前两个元素

问获取嵌套列表中的前两个元素
EN

Stack Overflow用户

提问于 2018-03-18 18:33:24

回答 1查看 1.6K关注 0票数 0

假设我有一个清单L=[[a,2],[a,3],[a,4],[b,4],[b,8],[b,9]]，我希望能够删除第三个元素，使它看起来如下所示：

[a,2]
[a,3]
[b,4]
[b,8]

我对火种很陌生，不知道我应该在这里做什么。

python

apache-spark

pyspark

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-03-19 03:35:25

你可以试试这样的东西。

第一步是groupby key列和列表中的聚合值。然后使用udf获取列表的前两个值，然后引爆该列。

df = sc.parallelize([('a',2),('a',3),('a',4),
                       ('b',4),('b',8),('b',9)]).toDF(['key', 'value'])
from pyspark.sql.functions import collect_list, udf, explode
from pyspark.sql.types import *

foo = udf(lambda x:x[0:2], ArrayType(IntegerType()))
df_list = (df.groupby('key').agg(collect_list('value')).
                   withColumn('values',foo('collect_list(value)')).
                   withColumn('value', explode('values')).
                   drop('values', 'collect_list(value)'))
df_list.show()

结果

+---+-----+
|key|value|
+---+-----+
|  b|    4|
|  b|    8|
|  a|    2|
|  a|    3|
+---+-----+

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49351487

复制

相似问题

问获取嵌套列表中的前两个元素
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问获取嵌套列表中的前两个元素EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问获取嵌套列表中的前两个元素
EN