文章/答案/技术大牛

发布

社区首页 >问答首页 >tf-以色列国防军:我应该使文件长度正常化吗？

问tf-以色列国防军:我应该使文件长度正常化吗？
EN

Stack Overflow用户

提问于 2017-06-17 02:15:44

回答 1查看 2.5K关注 0票数 2

当使用TF-以色列国防军比较文件A，B时，我知道文件的长度并不重要.但是与A-B，A-C相比，我认为B，C文件的长度应该是相同的。

例如日志: 100字文件A: 20字文件B: 30字

日志-A的TF-以色列国防军得分: 0.xx日志-B的TF-以色列国防军得分: 0.xx

我应该把A，B文件标准化吗？(如果比较目标不同，它似乎是一个问题或错误的结果)

tf-idf

python

normalization

word

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-06-17 03:12:37

通常，您想要做的任何事情给您最好的交叉验证的结果对您的数据。

如果您所做的所有比较是考虑余弦相似，那么您必须规范化的向量作为计算的一部分，但它不会影响分数，因为不同的文件长度。许多一般的文档检索系统都认为较短的文档更有价值，但是这通常是在计算了相似点之后作为分数乘数来处理的。

通常使用Oftentimes ln( TF )代替原始TF分数作为归一化特征，因为看1次和2次之间的区别要比看100次和200次之间的区别重要得多；它还可以防止过度使用一个项来控制向量，并且通常要健壮得多。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44600170

复制

相似问题

问tf-以色列国防军:我应该使文件长度正常化吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问tf-以色列国防军:我应该使文件长度正常化吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问tf-以色列国防军:我应该使文件长度正常化吗？
EN