首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当使用bigram_measures (如PMI )时,何时删除停止词?

当使用bigram_measures (如PMI )时,何时删除停止词?
EN

Stack Overflow用户
提问于 2017-12-07 04:49:13
回答 1查看 3K关注 0票数 4

我需要验证一种处理从bigram_measures返回的bigram停止词的总体方法,比如PMI。为什么要处理这些停止语?嗯,他们是噪音,不增加任何额外的价值超过某个点。

我看到了几个关于如何使用bigram_measures的具体例子。然而,我想知道什么时候最好在清理数据、扩展、美化/词干等的整个过程中删除停止词。

是的,我正在使用一个足够大的语料库。我记得你的语料库的大小也会影响bigram_measures结果的质量。

根据本文(NLTK - Counting Frequency of Bigram)中公认的答案,在语料库上使用PMI或其他bigram_measures后,似乎可以删除停止词。

“想象一下,如果过滤搭配只是简单地删除了它们,那么就有许多概率度量,比如概率比或PMI本身(计算一个单词相对于语料库中其他单词的概率),在从给定的语料库中的任意位置删除单词之后,这些词的功能就不能正常工作。如果从给定的单词列表中删除一些搭配,许多潜在的功能和计算就会被禁用……”

因此,我相信最好的方法是:

  1. 清理文本并移除垃圾字符,如HTML标记等。
  2. 展开收缩(例如:它们是-> )
  3. 使词条或词干规范化
  4. 使用类似于PMI的bigram_measures计算比例尺。你可以用其他方法计算比例尺,但这就是我所用的。
  5. 应用像"apply_freq_filter(N)“这样的频率滤波器来获得高于阈值的值。注意,这仍然会返回一些大写,停止词与有价值的大写混在一起。
  6. 检查两个单词是否都是停止词。如果是的话,那就不要在最终的结果中包括这个双标,但是出于上述的原因,把它们留在语料库中。

这是一个正确的整体处理方法,处理双字段式停止词混合在一起,有价值的大?

谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-28 21:46:59

在做了额外的研究之后,我将提出以下的答案。

一种方法是:-清理文本-展开收缩-化-删除停止词-运行PMI或其他衡量得分n克。

资料来源: Python文本分析,第224页。

我提供上述资料的目的是显示我是从哪里得到这个答案的,而不是提供一些毫无根据的答案。如果版主认为这是一个“推荐”,那么我将删除它。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47687797

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档