首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >两个语料的Tf-Idf计算

两个语料的Tf-Idf计算
EN

Stack Overflow用户
提问于 2017-01-16 04:44:24
回答 1查看 332关注 0票数 0

我有两个语料库(语料库1和语料库2),语料库1中的文档包含从语料库2中抄袭的句子。我正在使用Tf-Idf方法来衡量语料库1中的文档与语料库2中的文档之间的相似度。

已经为语料库2中的术语建立了倒排索引,如下所示:

简而言之,对于每两个句子的比较,我建立了两个Tf-Idf向量,然后使用余弦相似度来度量相似度。

我的问题是,在建立与语料库1的句子相关的向量的过程中,我使用语料库2的索引,通过汇总与X术语相关的文档来获得Idf,这是正确的方式吗!?由于语料库1中的一些术语在语料库2中不可用,Tf-idf函数将为这些术语返回0!或者我必须为语料库1建立另一个索引(在我看来,这将消除Tf-idf的能力)。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-02-28 00:48:32

我们必须索引目标语料库,以完成我们的工作,例如:如果我们有2个语料库,原始语料库和抄袭语料库。我们必须索引原来的一个,因为我们需要通过搜索。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41666109

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档