文章/答案/技术大牛

发布

社区首页 >问答首页 >在pandas中如何从可计数的稀疏数据帧中删除几列

问在pandas中如何从可计数的稀疏数据帧中删除几列
EN

Stack Overflow用户

提问于 2017-12-11 23:49:02

回答 1查看 375关注 0票数 0

我有大约2000个文本特征在计数数据框架内。我有800个文本特征列的列表，这些列对预测模型有实际的特征重要性贡献。我只想保留这800列，删除剩余的1200列，因为它们对我的预测没有太大贡献。

我怎么能做到这一点。我有要在文本文件中维护的列的列表。

cv = CountVectorizer( max_features = 2000,analyzer='word') 
    cv_text = cv.fit_transform(data.pop('text'))
    for i, col in enumerate(cv.get_feature_names()):
        data[col] = pd.SparseSeries(cv_text[:, i].toarray().ravel(), fill_value=0)

python

pandas

scikit-learn

nlp

回答 1

Stack Overflow用户

发布于 2017-12-11 23:51:21

这应该很简单：

data = data.drop(list_of_cols_to_drop, axis=1)

或

data = data.drop(data.columns.difference(list_of_needed_cols), axis=1)

有一个用于SparseDataFrame对象的drop方法。

从文档字符串中：

In [139]: pd.SparseDataFrame.drop?
Signature: pd.SparseDataFrame.drop(self, labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='rai
se')
Docstring:
Return new object with labels in requested axis removed.

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47756510

复制

相似问题

问在pandas中如何从可计数的稀疏数据帧中删除几列
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在pandas中如何从可计数的稀疏数据帧中删除几列EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在pandas中如何从可计数的稀疏数据帧中删除几列
EN