当使用TF-以色列国防军比较文件A,B时,我知道文件的长度并不重要.但是与A-B,A-C相比,我认为B,C文件的长度应该是相同的。
例如日志: 100字文件A: 20字文件B: 30字
日志-A的TF-以色列国防军得分: 0.xx日志-B的TF-以色列国防军得分: 0.xx
我应该把A,B文件标准化吗?(如果比较目标不同,它似乎是一个问题或错误的结果)
发布于 2017-06-17 03:12:37
通常,您想要做的任何事情给您最好的交叉验证的结果对您的数据。
如果您所做的所有比较是考虑余弦相似,那么您必须规范化的向量作为计算的一部分,但它不会影响分数,因为不同的文件长度。许多一般的文档检索系统都认为较短的文档更有价值,但是这通常是在计算了相似点之后作为分数乘数来处理的。
通常使用Oftentimes ln( TF )代替原始TF分数作为归一化特征,因为看1次和2次之间的区别要比看100次和200次之间的区别重要得多;它还可以防止过度使用一个项来控制向量,并且通常要健壮得多。
https://stackoverflow.com/questions/44600170
复制相似问题