我想使用TF-IDF的余弦相似度方法来得到两个单词的语义相似度。首先,我想从wikipedia或word- text中提取这些单词的含义,然后对文本进行预处理并找到TF-IDF。当我在谷歌上搜索这个问题时,我发现为了找到TF-IDF,我们应该有一个训练集和测试集。在我的例子中,哪个是训练集,哪个是测试集?如何使用计算结果计算余弦相似度?
发布于 2012-10-06 03:38:06
训练阶段是在TF-IDF中寻找权重,TF-IDF是基于文档中给定单词相对于所有文档的频率的calculated。一旦你有了所有的权重,这意味着你把每个文档变成了N个单词的向量。
现在,给定两个文档i和j,通过余弦函数计算它们的相似度。有关更多信息,请查看here。
https://stackoverflow.com/questions/12752771
复制相似问题