在使用NLTK的python中,如何在按类别筛选的文档中找到不停止字数的计数?
我可以想出如何使语料库中的单词被一个类别过滤,例如棕色语料库中所有用于“新闻”的单词是:
text = nltk.corpus.brown.words(categories=category)另外,我可以弄清楚如何获取特定文档的所有单词,例如,棕色语料库中文档‘cj47’中的所有单词是:
text = nltk.corpus.brown.words(fileids='cj47')然后,我可以循环的结果和计数的词,不是停止词。
stopwords = nltk.corpus.stopwords.words('english')
for w in text:
if w.lower() not in stopwords:
#found a non stop words但是,如何将其组合在一起,以便按类别对特定文档进行过滤?如果我试图同时指定一个类别和一个过滤器。
text = nltk.corpus.brown.words(categories=category, fields=’cj47’)我说错了:
ValueError: Specify fields or categories, not both发布于 2016-03-10 17:45:21
fileids = nltk.corpus.brown.fileids(categories=category)for f in fileids: words = nltk.corpus.brown.words(fileids=f) sum = sum([1 for w in words if w.lower() not in stopwords]) print "Document %s: %d non-stopwords." % (f, sum)https://stackoverflow.com/questions/35819141
复制相似问题