首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用多个字符串对数据框列进行热编码?

如何使用多个字符串对数据框列进行热编码?
EN

Stack Overflow用户
提问于 2019-12-03 23:51:51
回答 1查看 41关注 0票数 0

我目前正在构建一个回归模型来预测送餐时间。

这是包含一些观察结果的数据框架

如果您注意到Cuisines列有许多字符串。使用了代码

代码语言:javascript
复制
pd.get_dummies(data.Cuisines.str.split(',',expand=True),prefix='c')

这帮助我拆分字符串和热编码,然而,有一个新的问题需要处理。

已合并数据帧和虚拟对象。快餐出现在第一行和第三行。预期输出是第一行和第三行的值为1的单个快餐列,但是,创建了两个快餐列。第一行创建快餐(第四列),第三行创建快餐(第15列)。

有没有人能帮我解决这个问题,帮我在第一行和第三行得到一个值为1的快餐列,其他菜肴也是如此。

EN

回答 1

Stack Overflow用户

发布于 2019-12-03 23:54:17

这两个Fast Food的不同之处在于尾随空格。你可能想试试:

代码语言:javascript
复制
data.Cuisines.str.get_dummies(',\s*')
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59160780

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档