我需要验证一种处理从bigram_measures返回的bigram停止词的总体方法,比如PMI。为什么要处理这些停止语?嗯,他们是噪音,不增加任何额外的价值超过某个点。
我看到了几个关于如何使用bigram_measures的具体例子。然而,我想知道什么时候最好在清理数据、扩展、美化/词干等的整个过程中删除停止词。
是的,我正在使用一个足够大的语料库。我记得你的语料库的大小也会影响bigram_measures结果的质量。
根据本文(NLTK - Counting Frequency of Bigram)中公认的答案,在语料库上使用PMI或其他bigram_measures后,似乎可以删除停止词。
“想象一下,如果过滤搭配只是简单地删除了它们,那么就有许多概率度量,比如概率比或PMI本身(计算一个单词相对于语料库中其他单词的概率),在从给定的语料库中的任意位置删除单词之后,这些词的功能就不能正常工作。如果从给定的单词列表中删除一些搭配,许多潜在的功能和计算就会被禁用……”
因此,我相信最好的方法是:
这是一个正确的整体处理方法,处理双字段式停止词混合在一起,有价值的大?
谢谢。
发布于 2018-01-28 21:46:59
在做了额外的研究之后,我将提出以下的答案。
一种方法是:-清理文本-展开收缩-化-删除停止词-运行PMI或其他衡量得分n克。
资料来源: Python文本分析,第224页。
我提供上述资料的目的是显示我是从哪里得到这个答案的,而不是提供一些毫无根据的答案。如果版主认为这是一个“推荐”,那么我将删除它。
https://stackoverflow.com/questions/47687797
复制相似问题