文章/答案/技术大牛

发布

社区首页 >问答首页 >在处理多个数值时如何计算点互信息(PMI)

问在处理多个数值时如何计算点互信息(PMI)
EN

Data Science用户

提问于 2022-07-07 13:23:43

回答 1查看 225关注 0票数 1

Pointwise互信息或PMI简称为

这与以下相同：

其中，BigramOccurrences为双字词作为特征出现的次数，1 1stWordOccurrences是双字词中第一个字出现为特征的次数，2 2ndWordOccurrences是双字词出现的次数。最后给出N作为总字数。

我们可以稍微修改以下公式并得到以下内容：

现在让我有点困惑的是公式中的N。据我所知，它应该是出现的特征总数，即使它被描述为单词总数。因此，本质上，我不会在dataset中计算单词总数(因为经过一些预处理之后，这对我来说似乎没有意义)，但是我应该计算所有特征的生词出现的总次数以及单个单词，这是正确的吗？

最后，另一件让我有点困惑的事情是，当我使用比bigram更多的功能时，例如trigram也是特性的一部分。那么，在计算特定双图的PMI时，不考虑给定公式中N的三格数吗？反之亦然，当计算单个三格的PMI时，N不会考虑比克的数目，这是正确的吗？

如果我对公式有什么误解，请告诉我，因为我在网上找到的资源并没有对我说得很清楚。

classification

nlp

text

回答 1

Data Science用户

回答已采纳

发布于 2022-07-07 22:58:14

PMI在文本中的应用并不是那么简单，可以有不同的方法。

PMI最初是为联合事件的标准样本空间定义的，即一组实例，这些实例要么是A和B、A和B，要么不是A和B，或者不是A和B。在这种设置中，N当然是空间的大小。

因此，在处理文本时，问题是:样本空间是什么？

有时，将具体的文本单位作为实例来考虑是有意义的，例如小型文档(如tweet)或句子。在这个选项中，不同的情况是单词A和B是否在文档中单独/联合出现至少一次，然后我们将文档数量计算为频率。当然，N是文档的总数。
有时没有自然的单位来考虑，只有全文。在这种情况下，示例空间由文本中长度为m的移动窗口定义，即从位置1、2、3等位置开始的窗口。每个窗口都是一个“文档”，可以将不 A/B组合在一起。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/112485

复制

相似问题

问在处理多个数值时如何计算点互信息(PMI)
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在处理多个数值时如何计算点互信息(PMI)EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在处理多个数值时如何计算点互信息(PMI)
EN