Pointwise互信息或PMI简称为
这与以下相同:
其中,BigramOccurrences为双字词作为特征出现的次数,1 1stWordOccurrences是双字词中第一个字出现为特征的次数,2 2ndWordOccurrences是双字词出现的次数。最后给出N作为总字数。
我们可以稍微修改以下公式并得到以下内容:
现在让我有点困惑的是公式中的N。据我所知,它应该是出现的特征总数,即使它被描述为单词总数。因此,本质上,我不会在dataset中计算单词总数(因为经过一些预处理之后,这对我来说似乎没有意义),但是我应该计算所有特征的生词出现的总次数以及单个单词,这是正确的吗?
最后,另一件让我有点困惑的事情是,当我使用比bigram更多的功能时,例如trigram也是特性的一部分。那么,在计算特定双图的PMI时,不考虑给定公式中N的三格数吗?反之亦然,当计算单个三格的PMI时,N不会考虑比克的数目,这是正确的吗?
如果我对公式有什么误解,请告诉我,因为我在网上找到的资源并没有对我说得很清楚。
发布于 2022-07-07 22:58:14
PMI在文本中的应用并不是那么简单,可以有不同的方法。
PMI最初是为联合事件的标准样本空间定义的,即一组实例,这些实例要么是A和B、A和B,要么不是A和B,或者不是A和B。在这种设置中,N当然是空间的大小。
因此,在处理文本时,问题是:样本空间是什么?
https://datascience.stackexchange.com/questions/112485
复制相似问题