文章/答案/技术大牛

发布

社区首页 >问答首页 >用python创建多列的虚拟变量

问用python创建多列的虚拟变量
EN

Stack Overflow用户

提问于 2019-03-15 12:43:28

回答 2查看 3.3K关注 0票数 4

我正在使用一个包含两个ID号列的dataframe。为了进一步的研究，我想对这些ID号(两个ID号)做一种虚拟变量。但是，我的代码并不合并来自两个dataframes的列。如何将两个数据文件中的列合并并创建虚拟变量？

Dataframe

import pandas as pd
import numpy as np
d = {'ID1': [1,2,3], 'ID2': [2,3,4]}
df = pd.DataFrame(data=d)

当前代码

pd.get_dummies(df, prefix = ['ID1', 'ID2'], columns=['ID1', 'ID2'])

期望输出

p = {'1': [1,0,0], '2': [1,1,0], '3': [0,1,1], '4': [0,0,1]}
df2 = pd.DataFrame(data=p)
df2

dummy-variable

python

pandas

variables

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-03-15 12:45:12

如果输出中需要指示符使用max，则如果需要计数值，则在get_dummies之后使用sum和其他参数，并将值转换为字符串：

df = pd.get_dummies(df.astype(str), prefix='', prefix_sep='').max(level=0, axis=1)
#count alternative 
#df = pd.get_dummies(df.astype(str), prefix='', prefix_sep='').sum(level=0, axis=1)
print (df)
   1  2  3  4
0  1  1  0  0
1  0  1  1  0
2  0  0  1  1

票数 2

Stack Overflow用户

发布于 2019-03-15 12:45:03

剥猫皮的不同方法；下面是我应该怎么做的--使用额外的groupby

# pd.get_dummies(df.astype(str)).groupby(lambda x: x.split('_')[1], axis=1).sum()
pd.get_dummies(df.astype(str)).groupby(lambda x: x.split('_')[1], axis=1).max()

   1  2  3  4
0  1  1  0  0
1  0  1  1  0
2  0  0  1  1

另一种选择是stacking，如果您喜欢简洁的话：

# pd.get_dummies(df.stack()).sum(level=0)
pd.get_dummies(df.stack()).max(level=0)

   1  2  3  4
0  1  1  0  0
1  0  1  1  0
2  0  0  1  1

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55182909

复制

相似问题

问用python创建多列的虚拟变量
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用python创建多列的虚拟变量EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用python创建多列的虚拟变量
EN