计算单词间距离的最佳方法是什么?例如..假设我们在文档中搜索与2个名词- "person A“和"person B”相关联的单词“欺诈”。文本类似于下面的内容。名词中的......"PersonA".....fraud.............."PersonB".........................................................................."fraud“结论--PersonA更有可能可用作形容词“欺诈”,因为“欺诈”比"PersonB“更接近"PersonA”。对于“文本挖掘”,有没有好的算法/统计模型来衡量这一点?
发布于 2015-11-06 04:37:36
首先,你试图获得的度量似乎不是一个普通的“语义”距离,也就是semantic similarity。它更有可能是association measure。
因此,如果你有很多单词需要处理,那么看看PMI或其他分布相似性(例如,Natural Language Processing course的8周讲座)。
如果只有几次出现,那么我建议执行语法解析,并在解析树中测量普通距离。
https://stackoverflow.com/questions/33548440
复制相似问题