有什么方向指示吗?维基百科类别/页面之间距离的概念/实现?
例如: A)“圣路易斯大学”B)“大学”
很明显,"A“是"B”的一种。如何从Wiki中提取这些内容?如果您提取连接到A的所有类别,您将看到它给出了
Category:1818 establishments in Missouri Territory
Category:Articles containing Latin-language text
Category:Association of Catholic Colleges and Universities
Category:Commons category with local link same as on Wikidata
Category:Coordinates on Wikidata
Category:Educational institutions established in 1818
Category:Instances of Infobox university using image size
Category:Jesuit universities and colleges in the United States
Category:Roman Catholic Archdiocese of St. Louis
Category:Roman Catholic universities and colleges in Missouri并且它不包含任何可以直接连接到B (https://en.wikipedia.org/wiki/University)的内容。但从本质上讲,如果您进一步观察,您应该能够找到A和B之间的多跳路径,可能是多跳。实现这一目标的流行方法是什么?
发布于 2016-12-26 08:40:11
如果您有整个Wikipedia类别分类法,那么您可以计算两个类别之间的距离(最短路径长度)。如果一个类别是另一个类别的祖先,那么它就是直接的。
否则,您可以找到定义如下的最小公共Subsumer。
两个概念A和B的
最小公容含子是最具体的概念,它是A和B的祖先。
然后通过LCS计算它们之间的距离。
我鼓励您访问similarity measures,在那里您将找到计算单词之间语义相似度的最新技术。
维基百科资源:我关于提取维基百科类别/概念的project可能会对你有所帮助。
是一个非常好的相关示例
使用WordNet计算单词之间的语义相似度。WordNet以分层的方式组织英语单词。请参阅此wordnet similarity for java demo。它使用八种不同的技术来计算单词之间的语义相似度。
发布于 2016-12-26 09:12:27
我收集了一些想法/资源。如果我找到更多我会更新的。
--使用DBPedia:基于维基的知识库。它们提供了一个SparQL end-point来查询这个知识库。但必须通过SparQL界面模拟所需的相似性/距离行为。有些想法是here和here,但它们似乎已经过时了。
--使用UMBEL:http://umbel.org/,这是一个概念的知识图谱。我认为这个知识图谱的大小相对较小。但我怀疑它的精度可能很高。话虽如此,我根本不确定这与维基百科有什么关系。他们有this api来计算任何一对概念之间的距离度量(在写这篇文章的时候,他们的相似度API已经关闭。所以目前不是一个可行的解决方案)。
--使用http://degreesofwikipedia.com/我不知道他们算法的细节和他们是如何做到的,但他们提供了维基概念之间的距离。这也是方向性的。例如this和this。
https://stackoverflow.com/questions/41325350
复制相似问题