首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Carrot:同一查询的不同集群

Carrot:同一查询的不同集群
EN

Stack Overflow用户
提问于 2018-11-01 21:02:13
回答 1查看 73关注 0票数 1

当使用match all查询(*:*)发出相同的查询时,我总是得到不同的集群和分数。可能的原因是什么?

第一次尝试:

代码语言:javascript
复制
label: "В Минске"
score: 52.79549568196028

第二次尝试:

代码语言:javascript
复制
label: "В Минске"
"score": 54.74385944060893

第三次尝试:

代码语言:javascript
复制
label: "В Минске"
"score": 48.884082925408734

集群内的文档ids也不同。集群本身发生了变化:在一个查询响应中,我得到了一个集群“тысячамиевро”,在随后的查询响应中,它消失了,但新的集群出现了:“ТысячамиДолларов”。

对于给定的查询,是否有一些胡萝卜参数可以使集群稳定?可能是desiredClusterCountBase吗?

Solr索引对于所有情况都是相同的。使用的算法:使用StopWordLabelFilter.enabled=false和clustering.rows=1000的org.carrot2.clustering.lingo.LingoClusteringAlgorithm。

EN

回答 1

Stack Overflow用户

发布于 2018-11-02 05:32:01

看起来我找到了原因:

  • 在索引中有每个文档的副本,只有一个区别:一个副本有发布日期,另一个没有。
  • 同时,我的日期过滤器也无法正常工作,因为发布日期被错误地标注在每个文档上,而具有倒数排名的排名函数每次返回的文档可能会不同,排名前1000位(这部分很难调试),如果不查看Solr源代码code)
  • clustering模块将获得略不同的文档集=>集群将发生变化。然而,人们可以看到,最突出的集群(按大小)仍然是稳定的,只是分数在变化。在请求之间,不太显眼的集群可以被其他不太显眼的集群所取代。

我不知道这是否仍然是一个bug,但是从索引中删除所有文档并将它们放回正确的发布日期已经解决了这个问题。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53101839

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档