首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >几个文档的IDF怎么会不同呢?

几个文档的IDF怎么会不同呢?
EN

Stack Overflow用户
提问于 2011-01-27 07:34:48
回答 2查看 874关注 0票数 1

我正在使用LETOR制作一个信息检索系统。他们使用TF和IDF。我确信TF是依赖于查询的。但是IDF应该是这样的,但是:

请注意,IDF是独立于文档的,因此查询下的所有文档都具有相同的IDF值。

但这没有意义,因为IDF是功能列表的一部分。如何计算每个文档的IDF?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-02-01 12:38:00

IDF是特定于术语的。任何给定术语的IDF都是独立于文档的,但TF是特定于文档的。

换一种说法。假设我们有3个文档。

医生id1“敏捷的棕色狐狸跳过懒狗”

doc id 2 "The Sly Fox Pub Annapolis位于教堂圈“

doc id 3“位于教堂圈,位于历史街区的中心。”

现在,如果IDF是(文档数量)/(包含术语t的文档数量),那么术语fox的IDF是3/2,而不管搜索是什么或文档是什么。所以IDF是t的函数。

另一方面,TF是t和d上的函数。因此,文档id 1的' the‘的TF是2。

票数 5
EN

Stack Overflow用户

发布于 2011-02-03 01:12:26

补充一下jshen所说的:

IDF是一个度量特定单词或语法在您搜索的给定语料库中有多常见的度量。这是对这个词的稀有程度以及它可能的重要性的估计。因此,如果查询包含不常见的单词,则应将包含该稀有单词的文档判断为更重要。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4811406

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档