首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >TfIdf学习率/文档权重

TfIdf学习率/文档权重
EN

Stack Overflow用户
提问于 2016-10-27 23:39:53
回答 2查看 149关注 0票数 0

我目前正在使用sklearn构建一个应用程序,将给定的文档与其他文档进行比较,寻找相似性。

在使用LSA等其他技术时,我知道我可以调整学习率,以便忘记较旧的文档或使其变得不那么重要。有没有什么方法可以让我用TfIdf做类似的事情?如果我能定义一个与文档的“日期”成比例的权重,那就更好了。

我在考虑对文档的相对日期应用某种缓慢衰减的指数函数,并将其乘以相似度的最终余弦分数。这是一种好的方法吗?

EN

回答 2

Stack Overflow用户

发布于 2016-10-28 09:20:05

我不认为这是个好主意。tfidf分数是通过整个文档存储库获得的。如果你想“弃用”旧的术语,你应该不断更新你的文档库。例如:

代码语言:javascript
复制
each month, 
 * Remove the 5% oldest document in the repository.
 * Add 5% latest document to the repository.

这也达到了旧数据腐烂的相同效果,因为每隔20个月您就会有一个全新的存储库。

票数 0
EN

Stack Overflow用户

发布于 2016-10-29 03:57:45

我找到了那些文章,这些文章详细介绍了ElasticSearch是如何根据日期:https://marcobonzanini.com/category/relevance/来提高搜索结果的

我在这些线路上做了一些事情。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40288860

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档