我正在索引一个文档语料库(新闻文章,论坛帖子等)。变成了弹性搜索。为了提供更好的搜索,我还训练了一个支持向量机+Tf-Idf模型对文档进行分类,以将标签生成到分类中,例如News- Politics,News-Sports,Post-US Politics等。我的问题是:如何加权分类器生成的分数,以便将文档写入ES?
我一直在使用一种黑客方法,例如,如果我得到News-Sports的score为0.7时,我会写入"News-Sports“* int(score*10),即将News-Sports作为7个术语写入文档的tags字段。
有没有更好的索引时间加权方法?
发布于 2019-05-26 04:08:23
我不确定我是否完全理解了你的问题。我的理解是,如何为每个可能影响相关性的生成标签添加权重。
如果是这样的话,您可以使用field_value_factor。你可以把标签和它的权重都写到一个文档中,然后使用一个函数查询来提升这些值。
https://www.elastic.co/guide/en/elasticsearch/guide/master/boosting-by-popularity.html
https://stackoverflow.com/questions/56307573
复制相似问题