如果我们将NER作为一个分类/预测问题来处理,我们将如何处理未在训练语料库中的名称实体?
例如,“詹姆斯出生在英国。”詹姆斯被贴上了“人”的标签,英格兰被贴上了“地点”的标签。但我们键入了另一个完全奇怪的句子,比如"Fyonair是来自Fuabalada的土地“。作为人类,我们可以理解Fyonair是一个人(或者是童话中的公主),Fuabalada是她的故乡。
如果没有包含在数十亿的语料库和标记中,我们的模型将如何识别它?无监督学习能完成这一任务吗?
发布于 2019-09-30 00:42:44
首先,当我们人类解释"Fyonair是来自Fuabalada的土地“时,我们用我们对"is from”和"X land“的了解来推断Fyonair可能是一个人,Fuabalada的土地可能是一个位置。因此,我们的过程不是(至少不是完全)没有监督的:我们以前见过这个句子结构(“训练”),我们使用我们的“模型”来“预测”这两个实体。
一个好的(监督)的人也被训练来识别这种模式。你提到的例子可能有点难,但是有了“Fyonair博士是Fubalada的新CEO”这样的例子,一个像样的人应该能够认识到“Fyonair博士”是一个人(多亏了"Dr"),而"Fubalada“是一家公司(多亏了”Fubalada的CEO“),尽管它从未见过这些特殊的名字。
因此,一个标准的(监督的) NER应该识别它以前从未见过的实体,前提是它在句子中有关于它们的线索。从技术上讲,如果它只识别它在训练中所见过的实体,那么它实际上并不是一个最先进的程序,它只是一个字符串匹配程序。诚然,NERs对以前未曾见过的实体犯了很多错误,但这仅仅是因为它们在一般情况下更难捕捉。
https://datascience.stackexchange.com/questions/61009
复制相似问题