我正在从文件中读取输入,并为每行中的单词计算基于wordnet的相似性/相关性度量,如LIN,Banerjee和Pedersen度量(BNP),酱和Conrath度量(JNC)。我使用以下代码来获取同义词集:
synsets=[]
for entry in line1:
synsets.append(wn.synsets(entry)[0])但这只会让我在相应单词的同义词中获得第一个意义。但在某些情况下,我可能想要第二个或第三个,或者根据单词的不同而有其他意义。例如:对于水,第一个意义是H2O,但我想选择第二个,即“水体”。如何在没有用户提示的情况下让代码更具吸引力?
发布于 2013-06-20 15:46:18
通常,当您测量单词A和单词B之间的相似性时,您会将A的每个含义与B的每个含义进行比较,并将最接近的含义之间的相似性作为您的相似性得分。
如果你对每个单词的出现都有一个很大的上下文(...the bank of the river...和...to把钱存入银行……),你可以用它来决定哪个意义上的“银行”是相关的。
https://stackoverflow.com/questions/17189137
复制相似问题