根据我的理解,远距离监督是一种过程,它规定了一篇文章中的单个单词,通常是一个句子,试图传达的概念。
例如,数据库维护结构化关系concerns( NLP, this sentence).
我们的远程监控系统将输入一句话:"This is a sentence about NLP."
基于该句子,它将识别实体,因为作为预处理步骤,该句子将通过命名实体识别器NLP & this sentence传递。
因为我们的数据库认为NLP和this sentence是通过concern(s)的键联系在一起的,所以它会识别出表示关系Concerns(NLP, this sentence)的输入句子。
我的问题有两个:
1)这有什么用?是不是以后我们的系统可能会看到“狂野”的句子,比如That sentence is about OPP,并意识到它之前看到了类似的东西,从而实现了这种新颖的关系,从而仅基于单词/单个标记的concerns(OPP, that sentence).?
2)它是否考虑了句子中的实际单词?例如,动词“is”和副词“about”意识到(通过WordNet或其他下义词系统)这在某种程度上类似于更高阶的概念“关注”?
有没有人有一些代码用于生成我可以查看的远程监督系统,即交叉引用知识库(如Freebase )和语料库(如NYTimes )并生成远程监督数据库的系统?我认为这将在很大程度上澄清我对远程监督的概念。
发布于 2015-04-13 10:00:08
RE 1)是的,这是完全正确的。最后,我们想要的是一个分类器,它以文本和文本中提到的一对实体为输入,并告诉我们句子中这些实体之间的关系。远程监督是一种模拟这些训练数据的方法,使用来自已知知识库的“远程监督”。但是,最终目标与大多数机器学习任务相同:概括为新句子。
回复2)当然!远程监督只适用于训练数据是如何生成的1.一旦你假设了远程监督,剩下的就是一个(句子,relation_for_sentence)对的语料库,然后你提取句子上所有常见的自然语言处理特征。
1到第一近似值--有一些“远程监督”模型(如MultiR和MIML-RE),它们不直接生成虚假的训练数据,而是间接地将监督纳入训练过程本身。但是,即使在这些情况下,潜变量模型中也有一个因素相当于每句话的分类,只是输出变量是潜在的,而不是像普通的远程监督那样天真的“观察”。
发布于 2016-03-20 06:47:24
根据我现在的理解-远程监督的真正价值是我们可以使用它来标注大型语料库,而不必手动考虑每个句子-因为这在人工小时方面是非常昂贵的-所以最终句子中一些公认的关系将是错误的-但它将是-希望“相当好”……这是很有用的-在一些应用程序中,例如...学者们相互竞争,试图在这个愚蠢的任务中获得更好的分数,而且……其他的事情比如..。(欢迎使用示例)
https://stackoverflow.com/questions/29575784
复制相似问题