首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >名称中撇号的标记筛选器

名称中撇号的标记筛选器
EN

Stack Overflow用户
提问于 2018-04-02 19:49:36
回答 1查看 278关注 0票数 0

我正在寻找一种方法来将对“刘”、"la'u“和(理想情况下) "la u”的查询与以下数据匹配:

"Laʼu“(注:这是一个修改后的撇号)

我的分析器是:

代码语言:javascript
复制
analyzer: {
    folding: { 
        tokenizer: 'icu_tokenizer',
        filter: [ 'lowercase', 'icu_folding_filter' ],
        char_filter: [ 'extended_punctuation_char_filter' ]
    } 
},
char_filter: { 
    extended_punctuation_char_filter: { 
        type: 'mapping',
        mappings: [ '\u02BC => \u0027' ] 
    }
},
...

这将发出以下标记,其中显示了修改后的撇号被一个普通的撇号替换:

代码语言:javascript
复制
{
    "tokens": [
        {
            "token": "la'u",
            "start_offset": 0,
            "end_offset": 4,
            "type": "<ALPHANUM>",
            "position": 0
        }
    ]
}

为了与“刘”和“拉u”相匹配,我想我需要发射其他的标记排列。我试图找到令牌/char筛选器,它允许我发出多个标记,表示上面的折叠标点符号("la'u")、剥离的标点符号(“刘”)和中断标点符号本身的标记(即两个标记:"la“、"u")。

我正在使用ES 5.1,但是如果6x上有解决方案,我会考虑升级。

谢谢!

EN

回答 1

Stack Overflow用户

发布于 2018-04-02 22:09:00

使用同义词标记筛选器。你可以把“刘”、“啦”改为“啦”。在SOLR格式中,这将是

代码语言:javascript
复制
"synonym": {
        "type": "synonym",
        "format": "solr",
        "synonyms": [
          "lau, l au => la'u"
        ]
      }

您可以让它们全部匹配,而无需替换为

代码语言:javascript
复制
"synonym": {
            "type": "synonym",
            "format": "solr",
            "synonyms": [
              "lau, l au, la'u"
            ]
          }

详见https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-synonym-tokenfilter.html

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49617834

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档