我正在实现一个分类工具,并尝试了不同的TF版本:两个对数(对数调用内部/外部的校正),归一化,增强,和对数平均。显然,我的分类器精度受这些因素的影响有很大的不同--高达5%。然而,奇怪的是,我不能提前说出哪一个在给定的数据集上表现更好。我想知道是否有一些我遗漏的工作,或者,也许有人可以分享使用这些工作的经验?
发布于 2013-04-25 00:39:00
基本上,通过将给定术语添加到文档中而增加的重要性应该随着该术语出现的次数而减少。例如,"car“在文档中出现两次意味着该术语比只出现一次重要得多。但是,如果您将出现20次的术语与出现19次的相同术语进行比较,这种差异应该更小。
通过指定不同的归一化,您所做的是定义TF值在某个点饱和的速度。
您可以尝试将您的发现与有关每个文档的平均TF或类似指标的一些信息相关联。
发布于 2013-02-16 20:23:31
事实上,很难预先知道哪种加权方案效果最好。总体而言,有no free lunch-最适合一个数据集的算法可能对另一个数据集很糟糕。更重要的是,我们在这里讨论的并不是截然不同的选择。TF-IDF体现了一种关于分类/检索的特定直觉,它的所有不同变体都是相同的。告诉我们的唯一方法就是实验
注:当你说显着时,你做过交叉验证或随机重采样的统计显著性检验吗?这可能是因为你看到的差异是偶然的。
https://stackoverflow.com/questions/14814736
复制相似问题