首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在处理多个数值时如何计算点互信息(PMI)

在处理多个数值时如何计算点互信息(PMI)
EN

Data Science用户
提问于 2022-07-07 13:23:43
回答 1查看 225关注 0票数 1

Pointwise互信息或PMI简称为

这与以下相同:

其中,BigramOccurrences为双字词作为特征出现的次数,1 1stWordOccurrences是双字词中第一个字出现为特征的次数,2 2ndWordOccurrences是双字词出现的次数。最后给出N作为总字数。

我们可以稍微修改以下公式并得到以下内容:

现在让我有点困惑的是公式中的N。据我所知,它应该是出现的特征总数,即使它被描述为单词总数。因此,本质上,我不会在dataset中计算单词总数(因为经过一些预处理之后,这对我来说似乎没有意义),但是我应该计算所有特征的生词出现的总次数以及单个单词,这是正确的吗?

最后,另一件让我有点困惑的事情是,当我使用比bigram更多的功能时,例如trigram也是特性的一部分。那么,在计算特定双图的PMI时,不考虑给定公式中N的三格数吗?反之亦然,当计算单个三格的PMI时,N不会考虑比克的数目,这是正确的吗?

如果我对公式有什么误解,请告诉我,因为我在网上找到的资源并没有对我说得很清楚。

EN

回答 1

Data Science用户

回答已采纳

发布于 2022-07-07 22:58:14

PMI在文本中的应用并不是那么简单,可以有不同的方法。

PMI最初是为联合事件的标准样本空间定义的,即一组实例,这些实例要么是A和B、A和B,要么不是A和B,或者不是A和B。在这种设置中,N当然是空间的大小。

因此,在处理文本时,问题是:样本空间是什么?

  • 有时,将具体的文本单位作为实例来考虑是有意义的,例如小型文档(如tweet)或句子。在这个选项中,不同的情况是单词A和B是否在文档中单独/联合出现至少一次,然后我们将文档数量计算为频率。当然,N是文档的总数。
  • 有时没有自然的单位来考虑,只有全文。在这种情况下,示例空间由文本中长度为m的移动窗口定义,即从位置1、2、3等位置开始的窗口。每个窗口都是一个“文档”,可以将不 A/B组合在一起。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/112485

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档