假设我有两个同义词集synset(car.n.01')和synset (‘ban.n.01’),如果我想在wordnet层次结构中找到这两个同义词集之间的距离,那么我如何使用nltk来实现?
我在互联网上搜索,但我得到的相似性算法,如lin,resnik,jcn等,都不是我的问题的解决方案。
请帮我解决这个问题。
发布于 2014-02-26 13:06:57
来自this
路径相似度,wup_similarity和lch_similarity,所有这些都应该有效,因为它们是基于Wordnet层次结构中两个同义词集之间的距离。
dog = wn.synset('dog.n.01')
cat = wn.synset('cat.n.01')
dog.path_similarity(cat)
dog.lch_similarity(cat)
dog.wup_similarity(cat)
来自同一链接(相关部分以粗体显示)
synset1.path_similarity(synset2):
根据is-a (hypernym/)分类中连接词义的最短路径返回一个分数,表示两个单词的词义有多相似。分数在0到1的范围内,除非在那些找不到路径的情况下(只有动词才是真的,因为有许多不同的动词分类),在这种情况下返回-1。得分为1表示同一性,即将意义与其本身进行比较将返回1。
乔多罗-利科克相似度:
返回一个分数,表示两个词义的相似程度,基于连接词义的最短路径(如上所述)和词义出现的分类的最大深度。关系被给出为-log(p/2d),其中p是最短路径长度,d是分类深度。
synset1.wup_similarity(synset2),Wu-Palmer相似度:
返回一个分数,表示两个词义的相似程度,基于这两个词义在分类中的深度以及它们的最小公共包含者(最具体的祖先节点)的深度。
发布于 2016-10-28 23:49:36
您将在该文件中找到更多的距离处理
https://stackoverflow.com/questions/22031968
复制相似问题