发布于 2020-03-28 06:34:38
Grakn是一个知识引擎/网络,它通过定义良好的实体和关系(本体)来理解知识,因此您需要使用自然语言处理(Natural Language processing,NLP )来使图形网络能够访问人类语言。此外,您还需要OCR (光学字符识别)来将一些图像文本转换为文本。你还应该教网络基本的本体论来理解文本。你实际上正在经历奇点时代。
发布于 2020-04-17 01:43:44
为了给出一个如何从文本集合到知识图谱的示例,让我们假设您的所有文本都与某个知识领域有关-在您提到的博客文章的示例中,我们正在处理生物医学研究出版物。
第一步可能是在文本中找到实体,或定义的“事物”。为了坚持生物医学的例子,我们可以寻找出版物中提到的药物和基因。这被称为命名实体识别(NER),这是一种应用于文本挖掘的技术。
如果某一种药物经常在同一出版物中被提及为特定的基因,它们就会“共同出现”,并且很可能在某种程度上相关。这将是一种关系的例子。准确地说它们是如何相关的自动提取是一个困难的问题,被称为关系提取(RE)。
NER和RE的解决方案通常是特定于领域的(从字典术语的简单匹配到AI模型)。
如果您对文本挖掘感兴趣,那么可以从NLTK开始学习python。
知识图谱的思想是将已定义的事物,称为实体,放在彼此之间的已定义关系中,以创建上下文。在您有了在所有文档中找到的实体列表以及它们之间的关系(如上面的示例,文档中的共现,甚至是一个句子)之后,您可以定义一个模式并将这些实体和关系上传到grakn中,并使用它的所有功能来分析您的数据。
有关如何对已提取的数据使用grakn的教程,请参阅see here
https://stackoverflow.com/questions/60868882
复制相似问题