首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >语音搜索结果排名

语音搜索结果排名
EN

Stack Overflow用户
提问于 2014-04-07 17:33:37
回答 3查看 901关注 0票数 2

我想在hibernate搜索中使用语音搜索的能力。问题是,精确匹配没有排名到搜索结果的顶部。例如,搜索"john“返回以下结果列表:

  • 琼恩
  • john
  • 琼尼

我本以为“约翰”会被列在榜首

我用以下方式定义了我的分析器:

代码语言:javascript
复制
    @AnalyzerDef(name = "phonetic", 
    tokenizer = @TokenizerDef(factory = StandardTokenizerFactory.class), 
    filters = { 
            @TokenFilterDef(factory = StandardFilterFactory.class), 
            @TokenFilterDef(factory = PhoneticFilterFactory.class, params = {
                @Parameter(name = "encoder", value = "DoubleMetaphone"), 
                @Parameter(name = "inject", value = "true") 
            }) 
    })
@Analyzer(definition = "phonetic")
public class User{
    @Field(index=Index.TOKENIZED, store=Store.YES)
    private String firstname;

    @Field(index=Index.TOKENIZED, store=Store.YES)
    private String lastname;
}

搜索是用以下代码完成的:

代码语言:javascript
复制
String[] fields = new String[] { "firstname", "lastname" };
            MultiFieldQueryParser parser = new MultiFieldQueryParser(fields,
                    sf.getAnalyzer("phonetic"));

如果你能给我任何提示/帮助,你应该如何达到这个排名,那就太好了。我试图通过谷歌找到一些东西,我只发现这必须由我自己来实现,使用查询扩展来促进精确匹配,而不是语音搜索结果……提前感谢你帮助我。我使用Hibernate搜索3.1和Solr 1.3

Br、Shane

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2014-04-08 03:39:14

您的查询应该按照您指定的方式工作。由于您在您的inject=true上指定了PhoneticFilter,所以您确实应该在精确匹配(即metaphone匹配和纯文本匹配)上获得更多的术语匹配,而且就我的测试而言,这也证明了这一点。

我看到的问题是,你的分析给你留下了大小写敏感的搜索精确匹配的问题。如果你索引"John",并搜索"john",那么音标匹配就会很好,但是由于大小写的敏感性,你会错过准确的匹配。

简单地向过滤器链中添加一个LowercaseFilter就可以解决这个问题。我建议将它直接添加到您的PhoneticFilter之上,例如:

代码语言:javascript
复制
filters = { 
        @TokenFilterDef(factory = StandardFilterFactory.class), 
        @TokenFilterDef(factory = LowerCaseFilterFactory.class),
        @TokenFilterDef(factory = PhoneticFilterFactory.class, params = {
            @Parameter(name = "encoder", value = "DoubleMetaphone"), 
            @Parameter(name = "inject", value = "true") 
        }) 
}

PhoneticFilterFactory上方的位置维护了大写的隐喻,这不仅遵循惯例,而且还确保了元电话代码和纯文本之间的不匹配。事实上,我想不出有什么情况会让人担心,但不管怎样,似乎都不错。

票数 0
EN

Stack Overflow用户

发布于 2014-04-07 23:28:16

从基于语音的分析器的角度来看,乔恩和约翰完全一样。Hibernate搜索允许定义多个分析器,还可以使用复数形式注释@Fields多次索引相同的属性。

假设您在两个名为firstname_phonetic和firstname_standard的字段中索引了名字,然后可以创建两个针对每个字段的查询实例,并使用BooleanQuery和each子句组合这两个查询。这将使得分手将两者的分数结合起来,这样精确的比赛就能得到更高的排名。

票数 0
EN

Stack Overflow用户

发布于 2014-04-14 16:26:15

感谢您的回答,我现在使用了"femtoRgon“的注释顺序,并使用@ field (默认和语音)定义了多个分析器,当我将查询与标准组合时,使用不同的引导值进行语音字段搜索(在标准上使用更多的2.0f引导)。

感谢大家的帮助

Br、Shane

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22919264

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档