首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >TfidfVectorizer归一化偏差

TfidfVectorizer归一化偏差
EN

Stack Overflow用户
提问于 2015-12-23 20:13:53
回答 2查看 7.1K关注 0票数 5

我想确保我理解了属性use_idf和sublinear_tf在TfidfVectorizer对象中的作用。我已经研究了几天了。我正在尝试对不同长度的文档进行分类,并使用当前的tf-idf进行特征选择。

我相信,当use_idf=true算法对固有问题(使用TF)进行归一化时,频率是X倍的术语不应该是X倍的重要。

利用tf*idf公式。然后,sublinear_tf = true灌输1+log(tf),使其标准化对长文档和短文档的偏见。

我正在处理一种固有的对冗长文档的偏见(大多数文档属于一个类),这种规范化真的能减少这种偏见吗?

如何确保语料库中文档的长度没有集成到模型中?

我正在尝试验证模型中是否应用了归一化。我正在尝试提取语料库的归一化向量,所以我假设我可以只对Tfidfvectorizer矩阵的每一行求和。然而,总和大于1,我认为标准化的copora会将所有文档转换为0-1之间的范围。

代码语言:javascript
复制
vect = TfidfVectorizer(max_features=20000, strip_accents='unicode',
stop_words=stopwords,analyzer='word', use_idf=True, tokenizer=tokenizer, ngram_range=(1,2),sublinear_tf= True , norm='l2')

tfidf = vect.fit_transform(X_train)
# sum norm l2 documents
vect_sum = tfidf.sum(axis=1)
EN

回答 2

Stack Overflow用户

发布于 2016-05-03 16:10:08

use_idf=true (缺省情况下)在术语频率分量(局部分量:单个文章)中引入了全局分量。在考察两个文本的相似性时,引入idf有助于将这些术语分类为相关或不相关,而不是计算每个文本中的术语数量并进行比较。根据Zipf定律,“任何单词的出现频率与其排名成反比”。也就是说,最常见的单词出现的次数将是第二个最常见单词的两倍,第三个最常见单词的三倍,依此类推。即使在删除停用词之后,所有单词都遵循Zipf定律。

从这个意义上说,假设你有5篇描述汽车主题的文章。在本例中,单词"auto“可能会出现在所有5个文本中,因此不会是单个文本的唯一标识符。另一方面,如果只有一篇文章描述汽车“保险”,而另一篇文章描述汽车“机械”,这两个词(“机械”和“保险”)将是每个文本的唯一标识符。通过使用idf,文本中出现的不太常见的单词(例如“机械”和“保险”)将获得更高的权重。因此,使用idf并不能解决由文章长度产生的偏差,因为它又是一种全局成分的度量。如果您想减少由长度产生的偏差,那么正如您所说的,使用sublinear_tf=True将是解决它的一种方法,因为您正在转换本地组件(每篇文章)。

希望能有所帮助。

票数 7
EN

Stack Overflow用户

发布于 2015-12-23 20:37:47

use_idfsublinear_tf都不处理文档长度。实际上,你对use_idf的解释“一个词频是X倍的词不应该是X倍重要的词”比对sublinear_tf的描述更合适,因为sublinear_tf会导致Tfidf分数相对于词频的对数增加。

use_idf意味着使用反向文档频率,因此与出现频率较低但仅在特定文档中出现的术语(即,良好指示器)相比,出现频率非常高的术语(即,不良指示器)的权重较小。

为了减少文档长度偏差,您可以使用标准化( TfidfVectorizer参数中的norm),同时根据文档总分按比例缩放每个术语的Tfidf分数( norm=l1为简单平均值,norm=l2为平方平均值)

默认情况下,TfidfVectorizer已经使用了norm=l2,所以我不确定是什么导致了您面临的问题。也许那些较长的文档也确实包含类似的单词?此外,分类通常依赖于很多数据,所以我不能在这里说太多来解决你的问题。

参考文献:

  • TfidfVectorizer documentation
  • Wikipedia
  • Stanford Book
票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34435484

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档