我有一个从95个文件中摘录的关键词列表。我想对它们的重要性进行排序,但我只有关键字出现的文档数量和关键字在所有文档中的最大频率。我在找一个能帮上忙的排名公式。目前我正在使用IDF,但我想知道是否有更好的公式。
发布于 2012-12-30 11:41:27
维基频率列表已经通过列出英语中最重要的单词(以及许多其他语言)来实现词频,除了电视和电影最常用的词和其他许多语言之外,还有许多基于最重要和最重要的词的列表。
如果你想做一些基于单词排名的算法,我建议你不要远离TF-以色列国防军
和这里,你可以找到潜在的语义索引算法,这可能是我的资产。
希望这就是你所需要的。
发布于 2013-01-02 18:38:18
TF-以色列国防军肯定是一个良好的基础,易于实施.
添加其他偏见也是很常见的,比如您的术语在文档中的位置;出现在文档开头或更好的标题中的术语往往比在文档中间或结尾出现的术语更相关。
但是,您必须记住,算法的选择及其偏差也取决于文档的性质。例如,长文档(如研究论文或书籍)需要有立场偏见,但不一定需要新闻文章。同样,对于“以色列国防军”的措施,它必须计算在大量的文件,其内容类型类似于你的文件。如果你的文件是关于半导体的研究论文,你不想在“电视和电影”语料库上计算关联分数。
我的两分钱。
https://stackoverflow.com/questions/14090195
复制相似问题