常识知识的表示形式有很多:有的是以图的形式,如ConceptNet;有的是以模型的形式,如COMET;而本文要介绍的应该是其中比较易于使用的一种,词向量形式。 其代表是conceptnet-numberbatch。 简介 ConceptNet Numberbatch 是一组词向量,可以直接以向量形式表达词的语义。 它是ConceptNet开源项目的一部分,ConceptNet是最常用的常识知识图谱之一。 相比于其他词向量(word2vec, glove) ConceptNet Numberbatch的优势是它同时利用了文本和ConceptNet中的半结构化信息进行学习,因此它能够学习到一些从一般语料中可能无法直接学习到的一些语义 ConceptNet Numberbatch同时支持单个词语和一些词组,不过为了操作的方便,一般不使用词组,而都是直接使用单个词语的向量。
由麻省理工大学研究人员开发的人工智能系统ConceptNet也参与了这项研究,这是一个从上世纪90年代开始就一直在研发的人工智能系统。 研究人员依照人工智能理解世界的方式,对上述这些问题进行编程,以便测试ConceptNet的“智商”。 最后研究人员得到了有趣的测试结果:ConceptNet擅长词汇和发现相似之处,信息检索表现一般而对事物的推理和理解能力表现很差。 研究团队将一个问题从多个不同的角度进行分解,观察ConceptNet将会作出怎样的回应。例如被问到“为什么我们握手?” 更严重的还有ConceptNet可能会给出许多孩子们都不会犯错的回答。
常识推理筛选机制使用ConceptNet知识图谱(包含<实体1,关系,实体2>三元组)对对话进行筛选。 仅保留连续对话轮次中提及的概念可通过ConceptNet三元组关联的对话,从初始25,000段对话中筛选出11,000段高质量数据。 模型训练与评估实验设置:使用GPT2预训练语言模型对比组1:传统数据集组合对比组2:新数据集+经ConceptNet识别的常识对话数据评估指标:ROUGE:生成响应与参考响应的重叠度困惑度:模型生成参考响应的似然度人工评估 在SIGDIAL 2021论文中报道的自动评估指标(结合长度、DialoGPT似然分和ConceptNet三元组数量)与人工评分相关性更高。
例如,和「taking a nap」(睡一小会儿)有关的 ConceptNet 三元组是这样的:s=「take a nap」,r=Causes,o=「have energy」。 对于 ConceptNet 数据集,则需要在关系实体 X^r 和 object token X^o 之间再加入一个 [MASK] token,因为 X^r 在 ConceptNet 中可能有很多个 token 该研究使用了 ATOMIC 和 ConceptNet 作为知识种子集。 ATOMIC 数据集有 87 万个三元组,包括围绕一些特定事件提示(如「X 去商店」)的大量社会常识知识。 ConceptNet 是由 Open Mind Common Sense(OMCS)构成的数据集。三元组是典型的「s-r-o」结构(例如,「睡一会儿-导致-获得能量」)。 ConceptNet 实验结果 ? 表 6:ConceptNET 生成结果。 ? 表 7:从 ConceptNet 的验证集随机抽取的新生成。 本文为机器之心编译,转载请联系本公众号获得授权。
Zhu, Seung-won Hwang, Zhongyuan Wang ConceptNet 5.5: an open multilingual graph of general knowledge AAAI 2017. paper homepage repo embedding(ConceptNet Numberbatch) repo Robyn Speer, Joshua Chin, Catherine Si Wei Incorporating Structured Commonsense Knowledge in Story Completion AAAI 2019 paper resource: ConceptNet Language Generation with Multi-Hop Reasoning on Commonsense Knowledge Graph EMNLP 2020 paper resource: ConceptNet Kobayashi Unsupervised Commonsense Question Answering with Self-Talk EMNLP 2020 paper code resource: ConceptNet
02 常识知识图谱 常识知识图谱除了语言知识库以外,还包括Cyc、ConceptNet、NELL以及Microsoft ConceptGraph。 ConceptNet ConceptNet是一个大规模的多语言常识知识库,起源于一个MIT媒体实验室众包项目Open Mind Common Sense(OMCS),其本质为一个描述人类常识的大型语义网络 ConceptNet侧重于用近似自然语言描述三元组知识间关系,类似于WordNet。 ConceptNet知识表示框架包含了如下要素:概念、词汇、短语、断言和边。 ConceptNet目前拥有304个语言的版本,超过390万个概念,2800万个断言,知识三元组正确率约为81%,支持数据集的完全下载。 8.
该研究发现,注意力头(attention head)成功捕获了以 ConceptNet 编码的结构化常识知识,从而对 BERT 直接解决常识任务提供帮助。 图 2:从 ConceptNet 到 CommonsenseQA。 此外,为了分析基于从答案概念到问题概念的链接的隐式结构常识知识,研究者选择过滤掉了一些问题,并且过滤掉的这些问题不包含 ConceptNet 形式的问题概念(如释义)。 直观地讲,如果答案概念到问题概念的链接权重高于答案概念到其他疑问词的链接权重,则 ConceptNet 中的常识知识是通过经验表示捕获的。 在每个候选句子中,研究者根据 ConceptNet 计算了答案概念到问题概念的链接权重。
ConceptNet[3]作为面向word的KG,提供了word间的关系,诸如每个单词的同义词,反义词和共现单词。 2.1.1 编码面向word的知识图谱 本文使用图卷积神经网络[5](GCN)来捕获ConceptNet上节点之间的语义关系。 ConceptNet将一个语义事实存储为一个三元组< , r, >,其中 , 是word,r是word之间的关系。 ConceptNet 5.5: An Open Multilingual Graph of General Knowledge.
制作音乐,根据从 ConceptNet 上的证据可以帮助我们挑出 A 和 C 这两个选项,根据来自维基百科的证据,我们可以挑出 C 和 E 两个选项,结合二者,我们能够得到正确答案 C。 来自结构化的知识源(如 ConceptNet)包含概念之间的宝贵结构关系,对于推理很有帮助,但是它们的覆盖率低。而纯文本知识源(如维基百科)是对结构化知识的补充,可以提供丰富且覆盖面广的证据。 图 2.2 本文方法概览 (1)知识提取部分:根据给定的问题和选项,从结构化知识库 ConceptNet 中自动提取图路径,从维基百科纯文本中自动提取句子。 ConceptNet 是大型常识知识库,常识知识由三元组表示(实体节点,关系,实体节点),对于给定的问题和选项,首先识别出其中的实体,然后在 ConceptNet 中搜索从问题实体到选项的路径,将涉及到的三元组合并到一个图中 作者提出拓扑排序算法(Algorithm 1)根据构造图对证据进行排序,需要说明的是,对于结构化知识源 ConceptNet,使用了 ConceptNet 提供的关系模板将三元组转换为自然语言文本句子。
ConceptNet[3]作为面向word的KG,提供了word间的关系,诸如每个单词的同义词,反义词和共现单词。 2.1.1 编码面向word的知识图谱 本文使用图卷积神经网络[5](GCN)来捕获ConceptNet上节点之间的语义关系。 ConceptNet将一个语义事实存储为一个三元组<, r, >,其中,是word,r是word之间的关系。在每次更新节点表示时,GCN都会从图谱中的一跳邻居接收信息,并执行以下聚合操作: ? ConceptNet 5.5: An Open Multilingual Graph of General Knowledge.
ConceptNet[3]作为面向word的KG,提供了word间的关系,诸如每个单词的同义词,反义词和共现单词。 1)编码面向word的知识图谱 本文使用图卷积神经网络[5](GCN)来捕获ConceptNet上节点之间的语义关系。 ConceptNet将一个语义事实存储为一个三元组<, r, >,其中,是word,r是word之间的关系。在每次更新节点表示时,GCN都会从图谱中的一跳邻居接收信息,并执行以下聚合操作: ? ConceptNet 5.5: An Open Multilingual Graph of General Knowledge.
Dialogs Utterances Domains Task Definition Entity KG Word KG ReDial 10,006 182,150 Movie -- DBpedia ConceptNet 129,392 Movie Topic Prediction CN-DBpedia HowNet GoRecDial 9,125 170,904 Movie Action Prediction DBpedia ConceptNet Movie, Music Goal Planning CN-DBpedia HowNet INSPIRED 1,001 35,811 Movie Strategy Prediction DBpedia ConceptNet OpenDialKG 13,802 91,209 Movie, Book Path Generation DBpedia ConceptNet 我们将对话推荐任务主要拆分成三个子任务:推荐任务(生成推荐的商品
20世纪80年代时,研究人员开始进行早期尝试,希望赋予机器以常识和决策能力,主要的手段是创建结构化的知识数据库,例如CYC、ConceptNet等项目。 ConceptNet项目有类似的原理,同样是将关系逻辑映射到一个由三元词组构成的庞大网络(例如「苹果」—「用来」—「吃」)。 然而,无论是CYC,还是ConceptNet,都不具备推理能力。
计算公式如下: image.png 由于作者采用的数据集是ConceptNet,然后作者找到了构建ConceptNet的语料集合,然后作者采用实体和关系在文本中进行模糊匹配的方式对齐了一些图路径和文本的训练对 由于这个转换是不准确的所以只能是弱监督学习,在模型图中对应的任务是(1)图到文本(BA)和(2)文本到图(AB),损失函数如下: image.png 实验设计 本文的实验选取了常识领域的文本数据OMCS,和常识知识图谱ConceptNet
我们从豆瓣上收集了真实的观影记录和电影评论,从中构造出user profile(用户偏好的话题)和用户的历史交互信息;在ConceptNet[1]这样一个知识图谱上找出连接所有电影的话题,作为话题转移序列 我们采用深度优先遍历的方式在ConceptNet上找出连接这两个话题的最短路径,重复上述过程将所有要推荐的电影连接起来,连接所有电影的路径就称作话题序列。 Conceptnet 5.5: An open multilingual graph of general knowledge.
二、模态协同的三阶段演进特征级协同视觉CNN与文本Transformer的早期融合梅尔频谱与文本token的联合编码关键突破:跨模态残差连接减少信息损耗语义级协同建立跨模态知识图谱(如ConceptNet
KG-CNet-57-COCO 0.243 0.437 FRCNN:Fast-RCNN直接检测 KF-ALL-COCO:思路一获取语义一致性矩阵 KG-CNet-55-COCO:思路二通过大型常识知识库ConceptNet-assertions55 提取一致性矩阵 KG-CNet-57-COCO:思路二通过大型常识知识库ConceptNet-assertions57提取一致性矩阵 从结果来看,的确没什么卵用,mAP和Recall均下降了。。
Knowledge Retrieval 模型使用了常识知识库ConceptNet和情感词典NEC_VAD作为外部知识来源,对于对话中的每个非停用词token,都会从ConceptNet检索包含其直接邻居的连通知识图
传统的知识图谱是通过昂贵的众包(例如 WordNet, ConceptNet, ATOMIC)构建的。 为了评价我们的框架,我们将这个框架用于ConceptNet的关系集合,以及一个作者们创作的新颖关系集合(例如:capable but not good at),构建出相应的知识图谱。
Knowledge Retrieval 模型使用了常识知识库ConceptNet和情感词典NEC_VAD作为外部知识来源,对于对话中的每个非停用词token,都会从ConceptNet检索包含其直接邻居的连通知识图