首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >不常用单词的互信息

不常用单词的互信息
EN

Stack Overflow用户
提问于 2012-09-09 21:15:10
回答 1查看 415关注 0票数 2

当使用大约3000个单词的大文档计算两个单词之间的MI时,当我计算文档中不太重复的第一个单词的概率时,它非常低,第二个单词也是如此;这个低值影响联合概率= p(x) * P(y)导致互信息的值为0或NaN。我怎样才能避免这种情况?

EN

回答 1

Stack Overflow用户

发布于 2013-04-10 00:44:25

您最好的选择可能是使用负对数概率-这将帮助您避免下溢。记住,p(x) * p(y)-log(p(x)) + -log(p(y))是一样的。有关更多信息,请访问consult your friendly neighborhood Wikipedia

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12339368

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档