首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >熊猫,python:如何对包含字符串数组的列进行一次热编码

熊猫,python:如何对包含字符串数组的列进行一次热编码
EN

Stack Overflow用户
提问于 2018-10-25 12:48:02
回答 2查看 1.4K关注 0票数 3

我想知道如何对包含字符串数组的列进行一次热编码。

我正在尝试从df到df2:

代码语言:javascript
复制
import pandas as pd

# This is the original data frame
df = pd.DataFrame({'menu': [['Italian', 'Greek'], ['Japanese'],
                   ['Italian','Greek', 'Japanese']], 'price': ['$$', '$$', '$']})

df.head()

# This is the desired result

df2 = pd.DataFrame({'menu': [['Italian', 'Greek'], ['Japanese'], 
['Italian','Greek', 'Japanese']], 
                    'price': ['$$', '$$', '$'], 
                    'Italian': [1,0,1],
                    'Greek': [1,0,1],
                    'Japanese': [0,1,1]
                   })
df2.head()
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-10-25 12:51:03

MultiLabelBinarizerjoin结合使用

代码语言:javascript
复制
from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
df = df.join(pd.DataFrame(mlb.fit_transform(df['menu']),columns=mlb.classes_))
print (df)
                         menu price  Greek  Italian  Japanese
0            [Italian, Greek]    $$      1        1         0
1                  [Japanese]    $$      0        0         1
2  [Italian, Greek, Japanese]     $      1        1         1
票数 6
EN

Stack Overflow用户

发布于 2018-10-25 12:53:54

您可以使用pd.get_dummiespd.applyDataFrame.joinSeries.stack

代码语言:javascript
复制
df.join(pd.get_dummies(df.menu.apply(pd.Series).stack()).sum(level=0))

输出:

代码语言:javascript
复制
                         menu price  Greek  Italian  Japanese
0            [Italian, Greek]    $$      1        1         0
1                  [Japanese]    $$      0        0         1
2  [Italian, Greek, Japanese]     $      1        1         1
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52989660

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档