首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在信息检索系统中学习无关词?

如何在信息检索系统中学习无关词?
EN

Data Science用户
提问于 2019-02-06 18:56:27
回答 1查看 390关注 0票数 2

现在,我的信息检索推荐系统使用了带有Tfidfs权重的字嵌入stogether,如下所示:http://nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/

使用Tfidf改进了结果。但我有一个问题,不相关的关键字(频繁的词)仍然有很大的影响。我能不能学习一种系统,让它学会在没有监督的情况下注意哪些单词?

您对使用word嵌入式进行更好的信息检索有什么建议?

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-02-07 07:12:59

如果您正在使用TF,那么使用min_dfmax_df参数进行实验是很重要的。我想您是在Python上,因为您链接了Python教程。这是TF-以色列国防军文档和与上述参数相关的文本.

max_df :在范围0.01.0或int中浮动,在构建词汇表时忽略文档频率严格高于给定阈值的术语(特定于语料库的停止词)。如果浮动,则该参数表示文档的比例,整数绝对计数。如果词汇表不是None,则忽略此参数。min_df :在范围0.01.0或int中浮动,在构建词汇表时忽略文档频率严格低于给定阈值的术语。这一价值在文学中也被称为“切断”。如果浮动,则该参数表示文档的比例,整数绝对计数。如果词汇表不是None,则忽略此参数。

你可能会在网上找到几条经验法则。他们中的一些人建议在min_df上使用一个接近5-7个文档的固定数字,在max_df上使用一个百分比约为80-85%。甚至更低。这样,您就可以清除垃圾、拼写错误或不需要的标记。请记住,您需要尝试不同的组合,以获得正确的平衡在您的模型。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/45183

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档