当使用大约3000个单词的大文档计算两个单词之间的MI时,当我计算文档中不太重复的第一个单词的概率时,它非常低,第二个单词也是如此;这个低值影响联合概率= p(x) * P(y)导致互信息的值为0或NaN。我怎样才能避免这种情况?
发布于 2013-04-10 00:44:25
您最好的选择可能是使用负对数概率-这将帮助您避免下溢。记住,p(x) * p(y)和-log(p(x)) + -log(p(y))是一样的。有关更多信息,请访问consult your friendly neighborhood Wikipedia。
https://stackoverflow.com/questions/12339368
复制相似问题