首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何计算TF-IDF

如何计算TF-IDF
EN

Stack Overflow用户
提问于 2012-10-06 03:23:20
回答 1查看 1.8K关注 0票数 1

我想使用TF-IDF的余弦相似度方法来得到两个单词的语义相似度。首先,我想从wikipedia或word- text中提取这些单词的含义,然后对文本进行预处理并找到TF-IDF。当我在谷歌上搜索这个问题时,我发现为了找到TF-IDF,我们应该有一个训练集和测试集。在我的例子中,哪个是训练集,哪个是测试集?如何使用计算结果计算余弦相似度?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-10-06 03:38:06

训练阶段是在TF-IDF中寻找权重,TF-IDF是基于文档中给定单词相对于所有文档的频率的calculated。一旦你有了所有的权重,这意味着你把每个文档变成了N个单词的向量。

现在,给定两个文档i和j,通过余弦函数计算它们的相似度。有关更多信息,请查看here

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12752771

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档