首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用BleveSearch获得准确的短语匹配?

如何使用BleveSearch获得准确的短语匹配?
EN

Stack Overflow用户
提问于 2017-11-17 12:32:35
回答 1查看 608关注 0票数 0

我正在从数据集中搜索特定短语的同义词。我有2个JSON文件,其中存储的数据由yes和no的同义词组成。如果我查询“不感兴趣”,它会同时给出是和无短语/同义词作为结果,预期的结果只是没有短语/同义词。

en-gen-yes.json

代码语言:javascript
复制
{
"tag":"en-gen-yes",
"phrases": [
    "yes",
    "yeah",
    "sure",
    "suits me",
    "interested"
]

}

en-gen-no.json

代码语言:javascript
复制
{
"tag":"en-gen-no",
"phrases": [
    "no",
    "nope",
    "not sure",
    "does not suits me",
    "not interested"
]

}

查询码

代码语言:javascript
复制
query := bleve.NewMatchPhraseQuery("not interested")
    req := bleve.NewSearchRequest(query)
    req.Fields = []string{"phrases"}
    searchResults, err := paraphraseIndex.Search(req)
    if err != nil {
        log.Fatal(err)
    }
    if searchResults.Hits.Len() == 0 {
        fmt.Println("No matches found")
    } else {
        for i := 0; i < searchResults.Hits.Len(); {
            hit := searchResults.Hits[i]
            fmt.Printf("%s\n", hit.Fields["phrases"])
            i = i + 1
        }
    }

结果是

不,不确定不适合我,不感兴趣

预期结果只是

不,不确定不适合我,不感兴趣

EN

回答 1

Stack Overflow用户

发布于 2017-11-17 15:02:52

两者匹配的原因是,您正在使用的MatchPhraseQuery将分析搜索术语。您没有在这里显示IndexMapping,所以我不能确定,但我假设您使用的是“标准”分析器。此分析器移除英语停止词,并在此处定义英语停止词列表:

en.go#L281

因此,这意味着当您为“不感兴趣”做MatchPhraseQuery时,您最终只会搜索“感兴趣”。这个词恰好也出现在你的“是”同义词列表中。

值得注意的是,有一个名为PhraseQuery (不匹配)的变体可以进行精确匹配。虽然这不会在搜索时删除"not“这个词,但它仍然找不到匹配的词。原因是" not“这个词在索引时也被删除了,所以”neither“的精确匹配不会找到任何匹配(不是是或不是)。

解决方案是配置一个自定义分析器,它要么不删除任何停止词,要么使用不包含单词"not“的自定义停止词列表。如果您这样做,并将其用于索引和搜索,则您使用的查询应该开始正确工作。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47350755

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档