首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >过滤不需要的术语

过滤不需要的术语
EN

Data Science用户
提问于 2017-12-06 02:40:17
回答 1查看 80关注 0票数 0

我从文本文档中检索了以下关键字。

代码语言:javascript
复制
natural language processing
sequential labeling 
programmable
spell checking
techniques
forensics 
important issue 
categorial grammar
girls
applications

现在,我想从这个关键字列表中删除不想要的单词,比如programmable, techniques, important issue, girls, applications。有办法实现自动化吗?我能考虑一些pos模式来做这个吗?

请帮帮我!

EN

回答 1

Data Science用户

发布于 2017-12-14 21:24:15

不知道你到底在找什么。有很多方法可以做到这一点。一个简单的方法就是这样,

代码语言:javascript
复制
word_list = ['natural language processing', 'sequential labeling', 'programmable', 'spell checking', 'techniques', 'forensics', 'important issue', 'categorial grammar', 'girls', 'applications']

既然你说了一串关键词,

代码语言:javascript
复制
stopwords = ['programmable','techniques', 'important issue', 'girls', 'applications']

resultwords  = [word for word in word_list if word.lower() not in stopwords]
result = ' '.join(resultwords)

print (result)

这会屈服,

代码语言:javascript
复制
>> natural language processing sequential labeling spell checking forensics categorial grammar

否则,如果您只有一个文本字符串,请使用split()方法将每个单词放入按空格拆分的列表中。

代码语言:javascript
复制
querywords = word_list.split()

resultwords  = [word for word in querywords  if word.lower() not in stopwords]
result = ' '.join(resultwords)

您可以始终将它们扭曲成一个函数并将其自动化。正如我说过的,有很多方法可以做到这一点,而不知道您尝试了什么,这是一种不使用nltk库的简单方法。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/25429

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档