我正在使用传播激活来获得与给定概念相关的概念。
如果我想计算“伦敦”和“巴黎”之间的相似度,我会得到两个向量,如下所示:
vector for 'Paris':
Paris : 1.0
City : 0.9
Capital : 0.7
France : 0.6
Europe : 0.5
...
vector for 'London':
London : 1.0
City : 0.9
England : 0.9
United Kingdom : 0.8
Europe : 0.5
...问题是向量可以有不同的长度。在这种情况下,可以使用什么相似性度量?据我所知,余弦测度只能应用于具有相同大小的向量。
我找到了这些包: SimMetrics:http://staffwww.dcs.shef.ac.uk/people/S.Chapman/simmetrics.html和COLT:http://nlp.stanford.edu/nlp/javadoc/colt-docs/overview-summary.html
如何在我的场景中使用它们?
谢谢!穆隆
发布于 2011-04-15 00:54:55
您可以将所有未赋值的值默认为0,以获得匹配的向量,然后使用您选择的任何距离度量。不过,您可能希望有某种方法来权衡不同的属性,因为一些属性可能比其他属性更具相关性。
另外,从什么角度来看,伦敦比巴黎更“欧洲”?
https://stackoverflow.com/questions/5665550
复制相似问题