我想在hibernate搜索中使用语音搜索的能力。问题是,精确匹配没有排名到搜索结果的顶部。例如,搜索"john“返回以下结果列表:
我本以为“约翰”会被列在榜首
我用以下方式定义了我的分析器:
@AnalyzerDef(name = "phonetic",
tokenizer = @TokenizerDef(factory = StandardTokenizerFactory.class),
filters = {
@TokenFilterDef(factory = StandardFilterFactory.class),
@TokenFilterDef(factory = PhoneticFilterFactory.class, params = {
@Parameter(name = "encoder", value = "DoubleMetaphone"),
@Parameter(name = "inject", value = "true")
})
})
@Analyzer(definition = "phonetic")
public class User{
@Field(index=Index.TOKENIZED, store=Store.YES)
private String firstname;
@Field(index=Index.TOKENIZED, store=Store.YES)
private String lastname;
}搜索是用以下代码完成的:
String[] fields = new String[] { "firstname", "lastname" };
MultiFieldQueryParser parser = new MultiFieldQueryParser(fields,
sf.getAnalyzer("phonetic"));如果你能给我任何提示/帮助,你应该如何达到这个排名,那就太好了。我试图通过谷歌找到一些东西,我只发现这必须由我自己来实现,使用查询扩展来促进精确匹配,而不是语音搜索结果……提前感谢你帮助我。我使用Hibernate搜索3.1和Solr 1.3
Br、Shane
发布于 2014-04-08 03:39:14
您的查询应该按照您指定的方式工作。由于您在您的inject=true上指定了PhoneticFilter,所以您确实应该在精确匹配(即metaphone匹配和纯文本匹配)上获得更多的术语匹配,而且就我的测试而言,这也证明了这一点。
我看到的问题是,你的分析给你留下了大小写敏感的搜索精确匹配的问题。如果你索引"John",并搜索"john",那么音标匹配就会很好,但是由于大小写的敏感性,你会错过准确的匹配。
简单地向过滤器链中添加一个LowercaseFilter就可以解决这个问题。我建议将它直接添加到您的PhoneticFilter之上,例如:
filters = {
@TokenFilterDef(factory = StandardFilterFactory.class),
@TokenFilterDef(factory = LowerCaseFilterFactory.class),
@TokenFilterDef(factory = PhoneticFilterFactory.class, params = {
@Parameter(name = "encoder", value = "DoubleMetaphone"),
@Parameter(name = "inject", value = "true")
})
}PhoneticFilterFactory上方的位置维护了大写的隐喻,这不仅遵循惯例,而且还确保了元电话代码和纯文本之间的不匹配。事实上,我想不出有什么情况会让人担心,但不管怎样,似乎都不错。
发布于 2014-04-07 23:28:16
从基于语音的分析器的角度来看,乔恩和约翰完全一样。Hibernate搜索允许定义多个分析器,还可以使用复数形式注释@Fields多次索引相同的属性。
假设您在两个名为firstname_phonetic和firstname_standard的字段中索引了名字,然后可以创建两个针对每个字段的查询实例,并使用BooleanQuery和each子句组合这两个查询。这将使得分手将两者的分数结合起来,这样精确的比赛就能得到更高的排名。
发布于 2014-04-14 16:26:15
感谢您的回答,我现在使用了"femtoRgon“的注释顺序,并使用@ field (默认和语音)定义了多个分析器,当我将查询与标准组合时,使用不同的引导值进行语音字段搜索(在标准上使用更多的2.0f引导)。
感谢大家的帮助
Br、Shane
https://stackoverflow.com/questions/22919264
复制相似问题