文章/答案/技术大牛

发布

社区首页 >问答首页 >在为数据帧生成虚拟列之前筛选它们的类别

问在为数据帧生成虚拟列之前筛选它们的类别
EN

Stack Overflow用户

提问于 2017-04-15 15:23:55

回答 1查看 480关注 0票数 0

我在某些列中有一个包含分类值的数据集(一行可能包含多个类别，由,分隔)。示例：

  user hashtags
0   u1      a,b
1   u2      a,c
2   u3        c

我想为这些类别制作虚拟列。我对数据集中很少出现的类别也不感兴趣。目前，我正在生成虚拟列，然后删除很少出现的列(chunk是原始数据框架)：

dummies_hashtags = chunk['hashtags'].str.get_dummies(sep=',')
dummies_hashtags.columns = dummies_hashtags.columns.map(lambda c: 'hashtag_' + c)

# get rid of dummy columns with usage below 10
usage = dummies_hashtags.sum(0)
high_usage = dummies_hashtags[np.where(usage >= 10)[0]]
low_usage = dummies_hashtags[np.where(usage < 10)[0]]
dummies_hashtags = high_usage
dummies_hashtags['other_hashtags'] = low_usage.sum(1)

请注意，我还添加了一个列，以表示发生次数较少的类别数。

这种方法有效，但速度非常慢。关于如何改进它，我的想法是首先获得所有唯一的类别及其计数，然后删除低计数的类别，然后在生成虚拟列之前删除。

我想问你:这种做法是否真的有任何改善呢？它将如何实现？(想到np.unique和return_counts=True )。此外，是否有更好的方法来解决这个问题？

(注意:数据集已经是一个SparseDataFrame )。

dummy-variable

python

pandas

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-04-15 20:50:15

使用numpy和布尔切片应该可以加快速度。如果这对你有用的话请告诉我。

duh = df.hashtags.str.get_dummies(',')
v = duh.values
m = v.sum(0) > 1  # filter out occurrences of 1.  change for your needs
d2 = pd.DataFrame(v[:, m], duh.index, duh.columns[m])

df.join(d2)

  user hashtags  a  c
0   u1      a,b  1  0
1   u2      a,c  1  1
2   u3        c  0  1

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43427808

复制

相似问题

问在为数据帧生成虚拟列之前筛选它们的类别
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在为数据帧生成虚拟列之前筛选它们的类别EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在为数据帧生成虚拟列之前筛选它们的类别
EN