首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >带有单词nGrams的多词术语向量?

带有单词nGrams的多词术语向量?
EN

Stack Overflow用户
提问于 2014-12-09 19:29:12
回答 1查看 2.7K关注 0票数 4

我的目标是为每个文档建立一个索引,该索引将按单词ngram (uni、bi和tri)进行分解,然后捕获所有这些单词ngram的术语向量分析。用Elasticsearch可以吗?

例如,对于包含“红色汽车驱动器”的文档字段。我就能得到以下信息:

代码语言:javascript
复制
red - 1 instance
car - 1 instance
drives - 1 instance
red car - 1 instance
car drives - 1 instance
red car drives - 1 instance

提前感谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-12-10 02:12:21

假设您已经了解了术语向量api,那么您可以在索引时应用瓦形令牌滤波器,以便在令牌流中彼此独立地添加这些术语。

min_shingle_size设置为1(而不是默认的2),并将max_shingle_size设置为至少3(而不是默认的2)

基于这样的事实,在应用带状筛选器之前,您应该使用停止词过滤器

分析器的设置如下所示:

代码语言:javascript
复制
{
  "settings": {
    "analysis": {
      "analyzer": {
        "evolutionAnalyzer": {
          "tokenizer": "standard",
          "filter": [
            "standard",
            "lowercase",
            "custom_stop",
            "custom_shingle"
          ]
        }
      },
      "filter": {
        "custom_stop": {
            "type": "stop",
            "stopwords": "_english_",
            "enable_position_increments":"false"
        },
        "custom_shingle": {
            "type": "shingle",
            "min_shingle_size": "1",
            "max_shingle_size": "3"
        }
      }
    }
  }
}

您可以使用api端点测试分析器。

票数 7
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27387231

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档