问如何在信息检索系统中学习无关词？
EN

Data Science用户

提问于 2019-02-06 18:56:27

回答 1查看 390关注 0票数 2

现在，我的信息检索推荐系统使用了带有Tfidfs权重的字嵌入stogether，如下所示：http://nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/

使用Tfidf改进了结果。但我有一个问题，不相关的关键字(频繁的词)仍然有很大的影响。我能不能学习一种系统，让它学会在没有监督的情况下注意哪些单词？

您对使用word嵌入式进行更好的信息检索有什么建议？

word-embeddings

nlp

recommender-system

回答 1

Data Science用户

回答已采纳

发布于 2019-02-07 07:12:59

如果您正在使用TF，那么使用min_df和max_df参数进行实验是很重要的。我想您是在Python上，因为您链接了Python教程。这是TF-以色列国防军文档和与上述参数相关的文本.

max_df :在范围0.01.0或int中浮动，在构建词汇表时忽略文档频率严格高于给定阈值的术语(特定于语料库的停止词)。如果浮动，则该参数表示文档的比例，整数绝对计数。如果词汇表不是None，则忽略此参数。min_df :在范围0.01.0或int中浮动，在构建词汇表时忽略文档频率严格低于给定阈值的术语。这一价值在文学中也被称为“切断”。如果浮动，则该参数表示文档的比例，整数绝对计数。如果词汇表不是None，则忽略此参数。

你可能会在网上找到几条经验法则。他们中的一些人建议在min_df上使用一个接近5-7个文档的固定数字，在max_df上使用一个百分比约为80-85%。甚至更低。这样，您就可以清除垃圾、拼写错误或不需要的标记。请记住，您需要尝试不同的组合，以获得正确的平衡在您的模型。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/45183

复制

相似问题

问如何在信息检索系统中学习无关词？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在信息检索系统中学习无关词？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在信息检索系统中学习无关词？
EN