我有一组涉及域的文档。这些文档中的数据可以从概念上映射到领域本体。我需要找到那些文档之间的相似性分数。在文献中,许多人提出建立一个概念向量(类似于术语向量),然后用余弦定律计算相似度。
我知道如何为文档创建一个术语向量/tf-以色列国防军向量。
例如:
假设我有两个描述两个用户配置文件的文档。
在标记和词干之后,我为每个文档准备了两袋单词。
Doc1:(汤姆,雅虎)
Doc2:(曾傑瑞,谷歌)
每一份文件都可以用tf-以色列国防军向量来表示这些单词.
在这种情况下,余弦相似度分数将为零,因为它仅基于存在的确切单词。
但是,关于雅虎和谷歌都是搜索引擎和用户都使用搜索引擎的知识在本体论中得到了体现。
Yahoo "is-a“搜索引擎。
雅虎和搜索引擎作为概念存在于本体中,是连接这些概念的关系。
我想用这些概念,为余弦定律创造一个向量。
但是我不知道如何从本体中提取一个向量/包概念。
任何指示都会有帮助。
发布于 2015-03-24 07:19:53
这只是创造向量的一种方式,因为你不确定你需要什么。首先,您需要使用api (如OWL-API )来访问本体中的信息。根据您的建议,您需要提取建模元素,例如类、个人和属性。在您的例子中,yahoo可能是一个个体,search engine可能是一个类。所以你想要能够提取它们。如果您需要OWL示例,只需查看其他堆栈溢出问题,或阅读链接网站上的示例。
然后需要提取公理,例如yahoo is a search engine。然后,如果你在计算频率,你就可以把它们当作句子,计算出你所需要的频率。在本体论中,语义相似度或句法相似性的计算是一个完整的领域。打开谷歌学者并搜索他们。
https://stackoverflow.com/questions/29211725
复制相似问题