我正在使用LETOR制作一个信息检索系统。他们使用TF和IDF。我确信TF是依赖于查询的。但是IDF应该是这样的,但是:
请注意,IDF是独立于文档的,因此查询下的所有文档都具有相同的IDF值。
但这没有意义,因为IDF是功能列表的一部分。如何计算每个文档的IDF?
发布于 2011-02-01 12:38:00
IDF是特定于术语的。任何给定术语的IDF都是独立于文档的,但TF是特定于文档的。
换一种说法。假设我们有3个文档。
医生id1“敏捷的棕色狐狸跳过懒狗”
doc id 2 "The Sly Fox Pub Annapolis位于教堂圈“
doc id 3“位于教堂圈,位于历史街区的中心。”
现在,如果IDF是(文档数量)/(包含术语t的文档数量),那么术语fox的IDF是3/2,而不管搜索是什么或文档是什么。所以IDF是t的函数。
另一方面,TF是t和d上的函数。因此,文档id 1的' the‘的TF是2。
发布于 2011-02-03 01:12:26
补充一下jshen所说的:
IDF是一个度量特定单词或语法在您搜索的给定语料库中有多常见的度量。这是对这个词的稀有程度以及它可能的重要性的估计。因此,如果查询包含不常见的单词,则应将包含该稀有单词的文档判断为更重要。
https://stackoverflow.com/questions/4811406
复制相似问题