首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何删除使用pd.get_dummies后生成的重复列,并将它们的方差作为截止值

如何删除使用pd.get_dummies后生成的重复列,并将它们的方差作为截止值
EN

Stack Overflow用户
提问于 2018-08-31 12:56:03
回答 1查看 969关注 0票数 1

我有一个使用pd.get_dummies生成的数据帧,如下所示:

代码语言:javascript
复制
df_target = pd.get_dummies(df_column[column], dummy_na=True,prefix=column)

其中,column是列名,df_column是从其中提取每列以执行某些操作的数据帧。

代码语言:javascript
复制
rev_grp_m2_> 225    rev_grp_m2_nan  rev_grp_m2_nan
0                       0                   0
0                       0                   0
0                       0                   0
0                       0                   0
0                       0                   0
0                       0                   0
0                       0                   0
1                       0                   0
0                       0                   0
0                       0                   0
0                       0                   0
0                       0                   0

现在,我对生成的每一列进行方差检查,并跳过方差为零的列。

代码语言:javascript
复制
for target_column in list(df_target.columns):
    # If variance of the dummy created is zero : append it to a list and print to log file.
    if ((np.var(df_target_attribute[[target_column]])[0] != 0)==True):
        df_final[target_column] = df_target[target_column]

在这里,由于两列相同,我得到了np.var行的一个键错误。nan列有两个方差值:

代码语言:javascript
复制
erev_grp_m2_nan    0.000819
rev_grp_m2_nan    0.000000

理想情况下,我希望取方差为非零方差的变量,并删除/跳过变量为0var的变量。

有人能帮我一下吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-08-31 12:59:50

对于DataFrame.var使用:

代码语言:javascript
复制
print (df.var())
rev_grp_m2_> 225    0.083333
rev_grp_m2_nan      0.000000
rev_grp_m2_nan      0.000000

最后一个用于过滤的是boolean indexing

代码语言:javascript
复制
out = df.loc[:, df.var()!= 0]
print (out)
    rev_grp_m2_> 225
0                  0
1                  0
2                  0
3                  0
4                  0
5                  0
6                  0
7                  1
8                  0
9                  0
10                 0
11                 0

编辑:您可以获取非0值的索引,然后通过iloc进行搜索

代码语言:javascript
复制
cols = [i for i in np.arange(len(df.columns)) if np.var(df.iloc[:, i]) != 0]
print (cols)
[0]

df = df.iloc[:, cols]
print (df)
    rev_grp_m2_> 225
0                  0
1                  0
2                  0
3                  0
4                  0
5                  0
6                  0
7                  1
8                  0
9                  0
10                 0
11                 0

另一种想法是,如果所有值都为0,则过滤掉

代码语言:javascript
复制
cols = [i for i in np.arange(len(df.columns)) if (df.iloc[:, i] != 0).any()]
out = df.iloc[:, cols]

或者:

代码语言:javascript
复制
out = df.loc[:, (df != 0).any()]
print (out)
    rev_grp_m2_> 225
0                  0
1                  0
2                  0
3                  0
4                  0
5                  0
6                  0
7                  1
8                  0
9                  0
10                 0
11                 0
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52108679

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档