首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从pandas中删除列中的常见词?

如何从pandas中删除列中的常见词?
EN

Stack Overflow用户
提问于 2019-03-06 19:04:29
回答 1查看 731关注 0票数 1

Value counts of words

如何删除“to”、“and”、“from”、“this”等常用单词。我只对“人工智能”、“数据”、“学习”、“机器”、“人工”这些词感兴趣。

EN

回答 1

Stack Overflow用户

发布于 2019-03-06 19:12:37

我认为您要删除的是诸如' to ',' the‘等停用词。nltk有一个预定义的停用词列表:

代码语言:javascript
复制
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
stop_words

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',...

您可以使用np.where用np.nan替换停用词

代码语言:javascript
复制
title_analysis['new_col'] = np.where(title_analysis['words'].str.contains(stopwords), np.nan, title_analysis['words'])

然后执行value_counts()

代码语言:javascript
复制
title_analysis['new_col'].value_counts()

如果您有自己想忽略的单词集,只需将stop_words替换为您的单词列表即可。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55021565

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档