现在,我的信息检索推荐系统使用了带有Tfidfs权重的字嵌入stogether,如下所示:http://nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/
使用Tfidf改进了结果。但我有一个问题,不相关的关键字(频繁的词)仍然有很大的影响。我能不能学习一种系统,让它学会在没有监督的情况下注意哪些单词?
您对使用word嵌入式进行更好的信息检索有什么建议?
发布于 2019-02-07 07:12:59
如果您正在使用TF,那么使用min_df和max_df参数进行实验是很重要的。我想您是在Python上,因为您链接了Python教程。这是TF-以色列国防军文档和与上述参数相关的文本.
max_df :在范围0.01.0或int中浮动,在构建词汇表时忽略文档频率严格高于给定阈值的术语(特定于语料库的停止词)。如果浮动,则该参数表示文档的比例,整数绝对计数。如果词汇表不是None,则忽略此参数。min_df :在范围0.01.0或int中浮动,在构建词汇表时忽略文档频率严格低于给定阈值的术语。这一价值在文学中也被称为“切断”。如果浮动,则该参数表示文档的比例,整数绝对计数。如果词汇表不是None,则忽略此参数。
你可能会在网上找到几条经验法则。他们中的一些人建议在min_df上使用一个接近5-7个文档的固定数字,在max_df上使用一个百分比约为80-85%。甚至更低。这样,您就可以清除垃圾、拼写错误或不需要的标记。请记住,您需要尝试不同的组合,以获得正确的平衡在您的模型。
https://datascience.stackexchange.com/questions/45183
复制相似问题