首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >语言模型评估是如何处理未知单词的?

语言模型评估是如何处理未知单词的?
EN

Stack Overflow用户
提问于 2017-10-12 23:03:12
回答 1查看 650关注 0票数 0

因此,为了建立语言模型,排名超过词汇表大小的不太频繁的单词被替换为'UNK‘。

我的问题是,如何评估这种基于'UNK‘评估概率的语言模型?假设我们想在测试集上评估这样一个语言模型的困惑程度,对于模型未知的单词,我们得到的概率是基于未知单词的“袋子”来评估的。

这似乎有问题,因为如果我们将词汇表大小设置为1,即所有单词都是未知的,那么这个无能为力的语言模型的困惑程度将为1。

EN

回答 1

Stack Overflow用户

发布于 2017-10-13 04:48:07

这个文件很好地解释了这个问题:

https://web.stanford.edu/~jurafsky/slp3/4.pdf

简而言之,困惑应该只在具有相同词汇量的语言模型之间进行比较。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46712938

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档