首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >tf-以色列国防军:我应该使文件长度正常化吗?

tf-以色列国防军:我应该使文件长度正常化吗?
EN

Stack Overflow用户
提问于 2017-06-17 02:15:44
回答 1查看 2.5K关注 0票数 2

当使用TF-以色列国防军比较文件A,B时,我知道文件的长度并不重要.但是与A-B,A-C相比,我认为B,C文件的长度应该是相同的。

例如日志: 100字文件A: 20字文件B: 30字

日志-A的TF-以色列国防军得分: 0.xx日志-B的TF-以色列国防军得分: 0.xx

我应该把A,B文件标准化吗?(如果比较目标不同,它似乎是一个问题或错误的结果)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-06-17 03:12:37

通常,您想要做的任何事情给您最好的交叉验证的结果对您的数据。

如果您所做的所有比较是考虑余弦相似,那么您必须规范化的向量作为计算的一部分,但它不会影响分数,因为不同的文件长度。许多一般的文档检索系统都认为较短的文档更有价值,但是这通常是在计算了相似点之后作为分数乘数来处理的。

通常使用Oftentimes ln( TF )代替原始TF分数作为归一化特征,因为看1次和2次之间的区别要比看100次和200次之间的区别重要得多;它还可以防止过度使用一个项来控制向量,并且通常要健壮得多。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44600170

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档