每次我搜索关于文档排名或文本分类的论文/文档时,我都会被重定向到与网页相关的页面,但我想对存储库中的文档进行排名。
有人能推荐一本书/论文讨论文档数据库中存在的文档排名(每个搜索结果返回页面排名或其他与互联网有关的算法)吗?
我的目标是根据文档与查询的相关性或基于用户的参考文档(不涉及互联网或网站)对数据库中的文档进行排名
发布于 2011-12-29 11:30:38
您可能应该坚持使用现有的文档排序库或数据库。大多数SQL数据库都有全文搜索机制。如果您只使用文本索引,那么您不妨研究一下许多文本搜索/文档排名解决方案,例如Lucene (周围还有许多其他解决方案)。
如果你想了解排名算法是如何工作的,可以看看http://en.wikipedia.org/wiki/Tf-idf和http://en.wikipedia.org/wiki/Cosine_similarity。
如果您想了解如何对此类信息进行索引以提高搜索效率,您应该查看http://en.wikipedia.org/wiki/Inverted_index。
但是请注意,我不是这个问题的专家,还有许多其他的方法,尽管它们在基本形式上不应该有太大的不同。
使用一个系统来为您完成这项肮脏的工作,不仅可以节省您的时间,而且还可以为您提供比您自己能够在适当的时间内实现的更健壮和可靠的查询功能。
https://stackoverflow.com/questions/8663649
复制相似问题