文章/答案/技术大牛

发布

社区首页 >问答首页 >当使用bigram_measures (如PMI )时，何时删除停止词？

问当使用bigram_measures (如PMI )时，何时删除停止词？
EN

Stack Overflow用户

提问于 2017-12-07 04:49:13

回答 1查看 3K关注 0票数 4

我需要验证一种处理从bigram_measures返回的bigram停止词的总体方法，比如PMI。为什么要处理这些停止语？嗯，他们是噪音，不增加任何额外的价值超过某个点。

我看到了几个关于如何使用bigram_measures的具体例子。然而，我想知道什么时候最好在清理数据、扩展、美化/词干等的整个过程中删除停止词。

是的，我正在使用一个足够大的语料库。我记得你的语料库的大小也会影响bigram_measures结果的质量。

根据本文(NLTK - Counting Frequency of Bigram)中公认的答案，在语料库上使用PMI或其他bigram_measures后，似乎可以删除停止词。

“想象一下，如果过滤搭配只是简单地删除了它们，那么就有许多概率度量，比如概率比或PMI本身(计算一个单词相对于语料库中其他单词的概率)，在从给定的语料库中的任意位置删除单词之后，这些词的功能就不能正常工作。如果从给定的单词列表中删除一些搭配，许多潜在的功能和计算就会被禁用……”

因此，我相信最好的方法是：

清理文本并移除垃圾字符，如HTML标记等。
展开收缩(例如:它们是-> )
使词条或词干规范化
使用类似于PMI的bigram_measures计算比例尺。你可以用其他方法计算比例尺，但这就是我所用的。
应用像"apply_freq_filter(N)“这样的频率滤波器来获得高于阈值的值。注意，这仍然会返回一些大写，停止词与有价值的大写混在一起。
检查两个单词是否都是停止词。如果是的话，那就不要在最终的结果中包括这个双标，但是出于上述的原因，把它们留在语料库中。

这是一个正确的整体处理方法，处理双字段式停止词混合在一起，有价值的大？

谢谢。

python

nlp

nltk

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-28 21:46:59

在做了额外的研究之后，我将提出以下的答案。

一种方法是：-清理文本-展开收缩-化-删除停止词-运行PMI或其他衡量得分n克。

资料来源: Python文本分析，第224页。

我提供上述资料的目的是显示我是从哪里得到这个答案的，而不是提供一些毫无根据的答案。如果版主认为这是一个“推荐”，那么我将删除它。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47687797

复制

相似问题

问当使用bigram_measures (如PMI )时，何时删除停止词？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当使用bigram_measures (如PMI )时，何时删除停止词？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当使用bigram_measures (如PMI )时，何时删除停止词？
EN