首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将pyspark dataframe转换为自定义元组

将pyspark dataframe转换为自定义元组
EN

Stack Overflow用户
提问于 2022-08-02 09:33:55
回答 1查看 29关注 0票数 0

我有一个由id列和text列组成的dataframe。

代码语言:javascript
复制
temp = spark.createDataFrame([
    (0, ['Julia', 'is', 'awesome']),
    (1, ['Data-science', 'is','cool']),
    (2, ['Machine,learning,was,my,subject'])
], ["id", "words"])

+---+---------------------------------+
|id |words                            |
+---+---------------------------------+
|0  |[Julia, is, awesome]             |
|1  |[Data-science, is, cool]         |
|2  |[Machine,learning,was,my,subject]|
+---+---------------------------------+

我想把它转换成元组。我以前用熊猫的数据来做这个。下面是元组

代码语言:javascript
复制
tup = []
for _,i in df.iterrows():
    tup.append((i['word'],{'text_id':i['id']}))

sample_output:

代码语言:javascript
复制
[(['Julia','is','awesome'],{'text_id': 0})]

如何实现对整个火花放电数据的相同?有办法在火星雨中做到这一点吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-08-02 09:41:49

您可以使用map()进行RDD转换。

代码语言:javascript
复制
# use RDD and map to create tuples
data_sdf.rdd. \
    map(lambda k: (k.words, {"text_id": k.id})). \
    collect()
    
# [(['Julia', 'is', 'awesome'], {'text_id': 0}),
#  (['Data-science', 'is', 'cool'], {'text_id': 1}),
#  (['Machine,learning,was,my,subject'], {'text_id': 2})]
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73205205

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档