我正在寻找一种方法来将对“刘”、"la'u“和(理想情况下) "la u”的查询与以下数据匹配:
"Laʼu“(注:这是一个修改后的撇号)
我的分析器是:
analyzer: {
folding: {
tokenizer: 'icu_tokenizer',
filter: [ 'lowercase', 'icu_folding_filter' ],
char_filter: [ 'extended_punctuation_char_filter' ]
}
},
char_filter: {
extended_punctuation_char_filter: {
type: 'mapping',
mappings: [ '\u02BC => \u0027' ]
}
},
...这将发出以下标记,其中显示了修改后的撇号被一个普通的撇号替换:
{
"tokens": [
{
"token": "la'u",
"start_offset": 0,
"end_offset": 4,
"type": "<ALPHANUM>",
"position": 0
}
]
}为了与“刘”和“拉u”相匹配,我想我需要发射其他的标记排列。我试图找到令牌/char筛选器,它允许我发出多个标记,表示上面的折叠标点符号("la'u")、剥离的标点符号(“刘”)和中断标点符号本身的标记(即两个标记:"la“、"u")。
我正在使用ES 5.1,但是如果6x上有解决方案,我会考虑升级。
谢谢!
发布于 2018-04-02 22:09:00
使用同义词标记筛选器。你可以把“刘”、“啦”改为“啦”。在SOLR格式中,这将是
"synonym": {
"type": "synonym",
"format": "solr",
"synonyms": [
"lau, l au => la'u"
]
}您可以让它们全部匹配,而无需替换为
"synonym": {
"type": "synonym",
"format": "solr",
"synonyms": [
"lau, l au, la'u"
]
}详见https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-synonym-tokenfilter.html
https://stackoverflow.com/questions/49617834
复制相似问题