我目前正在使用sklearn构建一个应用程序,将给定的文档与其他文档进行比较,寻找相似性。
在使用LSA等其他技术时,我知道我可以调整学习率,以便忘记较旧的文档或使其变得不那么重要。有没有什么方法可以让我用TfIdf做类似的事情?如果我能定义一个与文档的“日期”成比例的权重,那就更好了。
我在考虑对文档的相对日期应用某种缓慢衰减的指数函数,并将其乘以相似度的最终余弦分数。这是一种好的方法吗?
发布于 2016-10-28 09:20:05
我不认为这是个好主意。tfidf分数是通过整个文档存储库获得的。如果你想“弃用”旧的术语,你应该不断更新你的文档库。例如:
each month,
* Remove the 5% oldest document in the repository.
* Add 5% latest document to the repository.这也达到了旧数据腐烂的相同效果,因为每隔20个月您就会有一个全新的存储库。
发布于 2016-10-29 03:57:45
我找到了那些文章,这些文章详细介绍了ElasticSearch是如何根据日期:https://marcobonzanini.com/category/relevance/来提高搜索结果的
我在这些线路上做了一些事情。
https://stackoverflow.com/questions/40288860
复制相似问题