首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >没有监督的学习?

没有监督的学习?
EN

Data Science用户
提问于 2019-09-29 18:57:49
回答 1查看 2.3K关注 0票数 2

如果我们将NER作为一个分类/预测问题来处理,我们将如何处理未在训练语料库中的名称实体?

例如,“詹姆斯出生在英国。”詹姆斯被贴上了“人”的标签,英格兰被贴上了“地点”的标签。但我们键入了另一个完全奇怪的句子,比如"Fyonair是来自Fuabalada的土地“。作为人类,我们可以理解Fyonair是一个人(或者是童话中的公主),Fuabalada是她的故乡。

如果没有包含在数十亿的语料库和标记中,我们的模型将如何识别它?无监督学习能完成这一任务吗?

EN

回答 1

Data Science用户

发布于 2019-09-30 00:42:44

首先,当我们人类解释"Fyonair是来自Fuabalada的土地“时,我们用我们对"is from”和"X land“的了解来推断Fyonair可能是一个人,Fuabalada的土地可能是一个位置。因此,我们的过程不是(至少不是完全)没有监督的:我们以前见过这个句子结构(“训练”),我们使用我们的“模型”来“预测”这两个实体。

一个好的(监督)的人也被训练来识别这种模式。你提到的例子可能有点难,但是有了“Fyonair博士是Fubalada的新CEO”这样的例子,一个像样的人应该能够认识到“Fyonair博士”是一个人(多亏了"Dr"),而"Fubalada“是一家公司(多亏了”Fubalada的CEO“),尽管它从未见过这些特殊的名字。

因此,一个标准的(监督的) NER应该识别它以前从未见过的实体,前提是它在句子中有关于它们的线索。从技术上讲,如果它只识别它在训练中所见过的实体,那么它实际上并不是一个最先进的程序,它只是一个字符串匹配程序。诚然,NERs对以前未曾见过的实体犯了很多错误,但这仅仅是因为它们在一般情况下更难捕捉。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/61009

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档