首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >具有大或小语料库的Tf-idf

具有大或小语料库的Tf-idf
EN

Stack Overflow用户
提问于 2017-07-01 03:09:08
回答 1查看 729关注 0票数 6

“在大型语料库中使用Tf-Idf方法的一个本质是,使用的语料库越大,术语的唯一权重就越多。这是因为语料库中文档大小或文档长度的增加使得语料库中两个术语的权重值重复的概率较低。也就是说,Tf-Idf方案中的权重可以呈现权重的指纹。在小语料库中,Tf-Idf不能造成这种差异,因为有巨大的潜力找到具有相同权重的两个术语,因为它们在每个文档中以相同的频率共享相同的源文档。通过在抄袭检测领域中使用Tf-Idf加权方案,根据语料库的大小,该特征可以成为反对者和支持者。

这是我从tf-idf技术中推导出来的。是真的吗?

是否有任何链接或文档可以证明我的结论؟

EN

回答 1

Stack Overflow用户

发布于 2021-11-19 15:59:06

经过4年的等待,我可以说答案是肯定的:)

这实际上可以简单地证明,如下图所示。我们有4个文档,下面是每个术语的TF和TFIDF表。

请参阅上表。

但是,当我们有一个包含大量文档的语料库时,我们不太可能找到在所有语料库中具有相同分布的两个术语。

注:我使用此网站计算Tf-Idf:https://remykarem.github.io/tfidf-demo/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44853357

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档