文章/答案/技术大牛

发布

社区首页 >问答首页 >从另一列的值列表中创建多列

问从另一列的值列表中创建多列
EN

Stack Overflow用户

提问于 2016-02-29 23:09:07

回答 1查看 1.1K关注 0票数 2

我有一张看起来像：

Groupe       Id   MotherName   FatherName    Field
Advanced    56    Laure         James        English-107,Economics, Management, History, Philosophy
Middle      11    Ann           Nicolas      Web-development, Java-2
Advanced    6     Helen         Franc        Literature, English-2
Beginner    43    Laure         James        Mathematics, History, Philosophy, Literature
Middle      14    Naomi         Franc        Java-2, Management, English-107

为了进一步处理数据，我需要拆分Field列，并将其替换为多个列，如下所示：

Id English-107 Economics Management History Web-development Java-2 Literature English-2 Mathematics Philosophy
56     1         1          1           1           0          0       0             0          0         1
11     0         0          0           0           1           1      0             0            0          0

因此，这些列可以附加到初始的dataframe中。我不知道怎么做，因为基本的分裂就像

pd.DataFrame(df.Field.str.split(',',1).tolist())

不能解决我的问题，因为我需要列不仅基于列表中的位置，而且基于列表中的每个唯一值。你知道我怎样才能接近它吗？

python

parsing

pandas

split

dataframe

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-02-29 23:15:17

您可以使用concat和str.get_dummies

print pd.concat([df['Id'], df['Field'].str.get_dummies(sep=",")], axis=1)
   Id  Economics  English-107  English-2  History  Java-2  Literature  \
0  56          1            1          0        1       0           0   
1  11          0            0          0        0       1           0   
2   6          0            0          1        0       0           1   
3  43          0            0          0        1       0           1   
4  14          0            1          0        0       1           0   

   Management  Mathematics  Philosophy  Web-development  
0           1            0           1                0  
1           0            0           0                1  
2           0            0           0                0  
3           0            1           1                0  
4           1            0           0                0

如果需要计数值，可以使用pivot_table (我添加了一个字符串Economics进行测试)：

df1 = df['Field'].str.split(',',expand=True).stack()
                                            .groupby(level=0)
                                            .value_counts()
                                            .reset_index()
df1.columns=['a','b','c']
print df1.pivot_table(index='a',columns='b',values='c').fillna(0)
b  Economics  English-107  English-2  History  Java-2  Literature  Management  \
a                                                                               
0          2            1          0        1       0           0           1   
1          0            0          0        0       1           0           0   
2          0            0          1        0       0           1           0   
3          0            0          0        1       0           1           0   
4          0            1          0        0       1           0           1   

b  Mathematics  Philosophy  Web-development  
a                                            
0            0           1                0  
1            0           0                1  
2            0           0                0  
3            1           1                0  
4            0           0                0

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35711580

复制

相似问题

问从另一列的值列表中创建多列
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从另一列的值列表中创建多列EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从另一列的值列表中创建多列
EN