问语言模型评估是如何处理未知单词的？
EN

Stack Overflow用户

提问于 2017-10-12 23:03:12

回答 1查看 650关注 0票数 0

因此，为了建立语言模型，排名超过词汇表大小的不太频繁的单词被替换为'UNK‘。

我的问题是，如何评估这种基于'UNK‘评估概率的语言模型？假设我们想在测试集上评估这样一个语言模型的困惑程度，对于模型未知的单词，我们得到的概率是基于未知单词的“袋子”来评估的。

这似乎有问题，因为如果我们将词汇表大小设置为1，即所有单词都是未知的，那么这个无能为力的语言模型的困惑程度将为1。

发布于 2017-10-13 04:48:07

这个文件很好地解释了这个问题：

简而言之，困惑应该只在具有相同词汇量的语言模型之间进行比较。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46712938

复制

相似问题

问语言模型评估是如何处理未知单词的？EN