信息获取的最佳指标之一是卡方。NLTK将其包含在度量包的BigramAssocMeasures类中。要使用它，首先我们需要计算每个单词的几个频率:它的总频率和在每个类别中的频率。这是用FreqDist表示单词的总频率，以及使用条件为类标签的ConditionalFreqDist完成的。一旦我们有了这些数字，我们就可以用BigramAssocMeasures.chi_sq函数给单词打分，然后按分数对单词进行排序，并获得前10000名。然后，我们将这些单词放入一个集合中，并在我们的特性选择函数中使用一个集合成员资格测试来选择出现在集合中的单词。现在，每个文件都是根据这些高信息词的存在进行分类的。

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15401497

复制

相似问题

问如何使用NLTK BigramAssocMeasures.ch_sq
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用NLTK BigramAssocMeasures.ch_sqEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用NLTK BigramAssocMeasures.ch_sq
EN