首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >转换spark数据框列

转换spark数据框列
EN

Stack Overflow用户
提问于 2020-04-13 18:32:06
回答 1查看 28关注 0票数 0

我有一个包含两列的spark dataframe : Stars (数值)和categories (标签字符串,例如:"Restaurant,Italien,High-end")。我希望重新创建数据帧,这样类别就变成了标签的计数。在上面的示例中,类别将变为3。

我曾尝试将数据帧视为熊猫数据帧,但似乎不起作用。我是Spark的新手,所以可能是因为我不太理解RDD的概念。

EN

回答 1

Stack Overflow用户

发布于 2020-04-13 22:57:05

为了更好地理解问题,请粘贴代码。根据对问题的描述,您可以尝试执行以下操作:

代码语言:javascript
复制
df['CategoryCount'] = df['categories'].str.split(',').str.len()

df是您的原始数据帧,CategoryCount是包含标签计数的新列。如果你愿意,你也可以删除你的类别栏。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61185960

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档