首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏java开发的那点事

    IK分词器

    什么是IK分词器? 来解决这个问题 IK提供了两个分词算法:ik_smart和ik_max_word 其中ik_smart为最少切分,ik_max_word为最细粒度划分 安装 IK: 同样下载不说直接安装.记得版本相同 添加IK后 ?  可以清晰的看到加载了 analysis-ik 也可以通过ES自带的工具查看 命令行执行 ElasticSearch-plugin list ?   进入Kibana测试 先测试 ik_smart ?  然后测试 ik_max_word ?  测试 "超级喜欢彼岸舞" 分别测试 ? ?   这种自己需要的词,需要自己加到字典中 IK分词器增加自己的配置: 我们找到IK的配置文件,位于ik/config/IKAnalyzer.cfg.xml ? ?  

    77731发布于 2020-09-30
  • 来自专栏软件工程

    ik分词器

    ik分词器出现的背景: 分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作, 默认的中文分词是将每个字看成一个词 ,比如"中国的花"会被分为"中","国","的","花",这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。 IK提供了两个分词算法 ik_smart 和 ik_max_word 其中 ik_smart 为最少切分,ik_max_word为最细粒度划分 我们分别来试一下 (1)最小切分:在浏览器地址栏输入地址 步骤: (1)进入elasticsearch/plugins/ik/config目录 (2)新建一个my.dic文件,编辑内容: 小明 修改IKAnalyzer.cfg.xml(在ik/config 目录下) <properties> <comment>IK Analyzer 扩展配置</comment> <!

    49120编辑于 2022-05-13
  • 来自专栏小工匠聊架构

    白话Elasticsearch30-IK中文分词之热更新IK词库

    -IK分词器配置文件+自定义词库 上面两篇学习了如何安装IK以及基本的使用,当我们使用自定义词库的时候,是不是每次都得重启,而且得逐个节点依次修改,是不是有点不方便呢? ik分词器原生支持的热更新方案,部署一个web服务器,提供一个http接口,通过modified和tag两个http响应头,来提供词语的热更新 推荐第一种方案修改ik分词器源码, 第二种方案ik git 既然说到了要修改源码,那接着来吧,到ik的GitHub上下载源码 IK Github 下载Source Code 找到对应ES版本的IK,下载源码 ,这里我是用的是6.4.1版本的ES 。 使用 ik_max_word 来看下 IK的 对 “盘他”的分词 插入一条数据 INSERT INTO `hot_words` VALUES ('1', '盘他'); 查看es elasticsearch.log 的日志 可以看到加载成功,那重新来查看下分词 不会被IK分词了,成功。

    1.2K41发布于 2021-08-17
  • 来自专栏『学习与分享之旅』

    IK分词器安装

    下载 Ik 分词器下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases图片IKAnalyzer 两种分词模式ik_max_word ik_smart:会做 最粗粒度 的拆分。 配置 IK将下载好的 zip 上传到 linux 当中,上传到之前新建的 plugins 目录当中,上传之前首先新建一个 ik 的文件夹然后上传到新建的 ik 文件夹当中:mkdir ik图片上传完毕之后利用 unzip 进行解压:unzip elasticsearch-analysis-ik-7.16.2.zip之后在重启 es 与 kibana 然后在 devTools 当中进行使用 ikik_max_word _analyze{ "analyzer": "ik_max_word", "text": "我是中国人啊了呢"}设置 IK 分词器作为默认分词器PUT /my_index{ "settings

    64500编辑于 2023-09-27
  • 来自专栏后端码匠

    IK分词器详解

    IK分词器 什么是 IK 分词器 分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词器是将每个字看成一个词 ,比如"我爱技术"会被分为"我","爱","技","术",这显然不符合要求,所以我们需要安装中文分词器IK来解决这个问题 IK提供了两个分词算法:ik_smart和ik_max_word 其中ik_smart 解压缩后拷贝到ElasticSearch的plugins文件夹下 创建 ik 目录 重启ES 之前是没有插件加载的 可以清晰的看到加载了 analysis-ik 也可以通过ES自带的工具查看 命令行执行 ElasticSearch-plugin list 进入Kibana测试 先测试 ik_smart 最少划分 GET _analyze { "analyzer": "ik_smart" , " 这种自己需要的词,需要自己加到字典中 IK分词器增加自己的配置 我们找到IK的配置文件, 位于ik/config/IKAnalyzer.cfg.xml IKAnalyzer.cfg.xml <?

    1.3K20发布于 2021-01-20
  • 来自专栏运维监控日志分析

    Elasticsearch IK 分词器

    IK分词器提供两种分词算法 ik_smart和ik_max_word,ik_smar为最少切分,ik_max_word最精细度切分。 IK 分词器下载安装 下载地址 根据es版本选择对应的IK版本,本次使用的6.8.4 IK分析器版本。 将IK分词器压缩文件解压到elasticsearch安装目录的plugins目录下命名ik目录 #解压analysis-ik文件 [root@elk-node1 plugins]# pwd /usr/ IK分词器 ik_smart算法 ik_smart算法会将"我爱你中国"分为 "我爱你" "中国"。 ? IK分词器ik_max_word算法 ik_max_word算法会将"我爱你中国"分为 "我爱你" "我" "爱你" "中国"。 ?

    5.1K30发布于 2020-04-30
  • 来自专栏云技术分享

    ElasticSearch实战:IK中文分词插件

    官方文档 https://github.com/medcl/elasticsearch-analysis-ik https://code.google.com/archive/p/ik-analyzer IK中文分词器就实现了上述的功能。 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。 3. IK中文分词插件怎么使用 下面,我们创建一个新的集群,仍以上面的检索为例。使用IK后,重新检索。 ", ##指定索引内容使用ik_smart分词 "search_analyzer": "ik_smart" ##指定检索时,使用ik_smart

    1.8K210发布于 2019-04-23
  • 来自专栏ElasticSearch

    ElasticSearch的IK分词器

    ElasticSearch7.6.x 模板及滚动索引创建及注意事项https://blog.csdn.net/a924382407/article/details/1150822652.ElasticSearch的IK

    23510编辑于 2024-11-02
  • 来自专栏GreenLeaves

    ES 中文分词器ik

    因为ik目前最高支持es 8.2.3,所以本文基于8.2.3的环境编写. 1、集群环境构建 参考Es 集群搭建及相关配置和相关参数解读,分别下载Es和kibana 8.2.3版本,部署到相应的服务器, 环境构建到此结束. 2、ik分词器安装部署 下载地址 注意es和ik分词器的版本匹配.这里下载8.2.3的ik分词器 下载完毕之后去es的工作目录的plugins文件夹下新建ik文件夹,将下载下来的ik 压缩包解压缩至ik文件夹下,重启es,集群中所有节点重复此操作. 3、ik 分词器简介 3.1 词库介绍 ik分词器主要有以下词库,位于config目录下 (1)、main.dic 主词库,包含日常生活中常用的词 ik_smart 、ik_max_word 下面分别测试,使用kibna dev tools. ik_smart GET test_index/_analyze { "tokenizer": "ik_smart 分的粒度更加的细和全面,所以一般都是用ik_max_word作为分词器. 3.4 扩展分词 一般情况下,词库是够用的,但是如果碰到一些特殊词汇如网络用词,这个时候就需要手动添加相关的词汇进入到词库中.ik

    1.2K20编辑于 2022-09-21
  • 来自专栏cwl_Java

    快速学习-IK分词器

    4.2 安装IK分词器 使用IK分词器可以实现对中文分词的效果。 下载IK分词器:(Github地址:https://github.com/medcl/elasticsearch-analysis-ik) 下载zip: ? 解压,并将解压的文件拷贝到ES安装目录的plugins下的ik目录下 ? 4.3 两种分词模式 ik分词器有两种分词模式:ik_max_word和ik_smart模式。 iK分词器自带一个main.dic的文件,此文件为词库文件。 ?

    1.2K20发布于 2020-01-14
  • 来自专栏太阳影的学习记录

    UE 中脚部 IK 使用总结

    UE 中脚部 IK 使用总结 本文主要关于如何在 UE 中配置 Foot IK。其背后的算法、原理因为涉及内容较多,后面会单独另外写一篇。 UE4 中 通过 Two Bone IK 进行 脚部 IK 的配置 UE4 的动画蓝图中有多个专门给 IK 用的动画节点,我们比较常用的 IK 动画节点是 Two Bone IK。 下面内容主要关于如何使用 Two Bone IK 动画节点来实现基本的脚部 IK。 接下来我们在动画蓝图中引入 Two Bone IK 节点并指定好参数即可配置好 Two Bone IK。 没有 IK 骨骼的处理 没有 IK 骨骼的话得要手动创建虚拟骨骼,简化模型骨骼。

    3.4K10编辑于 2022-09-08
  • 来自专栏小工匠聊架构

    白话Elasticsearch28-IK中文分词之IK中文分词器的安装和使用

    IK安装 根据github上的指导 ? 下 新建目录 ik ? 将 zip包解压到 ik目录下 ,我这里用的是6.4.1 ,所以我下载对应的版本的ik ? 重启es ,观察启动日志 loaded plugin [analysis-ik] ? ---- ik分词器基础知识 ik有两种analyzer,可根据自己的需要自己选择,但是一般是选用ik_max_word ---- ik_max_word ik_max_word: 会将文本做最细粒度的拆分 ,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合; ---- ik_smart ik_smart

    60920发布于 2021-08-17
  • 来自专栏别先生

    ElasticSearch安装中文分词器IK

    1、安装IK分词器,下载对应版本的插件,elasticsearch-analysis-ik中文分词器的开发者一直进行维护的,对应着elasticsearch的版本,所以选择好自己的版本即可。 2、开始解压缩操作,将elasticsearch-analysis-ik-5.4.3.zip拷贝到一个目录里面进行解压缩操作,安装IK中文分词器。 -5.4.3.zip elasticsearch-analysis-ik 3 [root@slaver4 elasticsearch-analysis-ik]# unzip elasticsearch-analysis-ik 6 [root@slaver4 elasticsearch-analysis-ik]# 然后将解压缩好的IK移动到ElasticSearch的plugins目录下面。 如我的elasticsearch-analysis-ik里面存的就是IK中文分词器解压缩后的文件。

    2.1K10发布于 2019-10-23
  • 来自专栏python3

    elasticsearch安装ik中文分词器

    中文的分词器现在大家比较推荐的就是 IK分词器,当然也有些其它的比如 smartCN、HanLP。 这里只讲如何使用IK做为中文分词。 三、安装ik中文分词器 打开github地址:https://github.com/medcl/elasticsearch-analysis-ik 打开releases页面,下载7.10.1版本 ? /elasticsearch-analysis-ik unzip /opt/elasticsearch-analysis-ik-7.10.1.zip -d /data/elk7/elasticsearch ",                 "search_analyzer": "ik_smart"             }         } }' 3. 热更新 IK 分词使用方法 目前该插件支持热更新 IK 分词,通过上文在 IK 配置文件中提到的如下配置 <!

    1.9K40发布于 2021-04-25
  • 来自专栏大道七哥

    IK分词器 IKAnalyzer 简单demo

    所用IKAnalyzer:IK-Analyzer-2012FF 百度云:http://pan.baidu.com/s/1bne9UKf   实例代码: 1 package com.test.ik.analyzer Dictionary.initial(configuration); 56 // getSingleton 获取初始化完毕的字典单例 57 // addWords 加载用户扩展的词汇列表到 IK DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK

    2.5K30发布于 2019-09-10
  • 来自专栏OSChina

    ES中添加 IK 分词器

    1.从github中下载IK分词器,一定要注意和ES的版本一致 https://github.com/medcl/elasticsearch-analysis-ik/releases 2 .下载之后放到 plugins 目录下面去 重启 ES 服务 测试:http://localhost:9200/blog1/_analyze { "text":"中华人民共和国MN","tokenizer": "ik_max_word 和 ik_smart 什么区别? ik_max_word: 会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合 ,适合 Term Query; ik_smart: 会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”,适合 Phrase 查询。

    1.3K30发布于 2019-08-22
  • 来自专栏小工匠聊架构

    白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库

    /ik/config/IKAnalyzer.cfg.xml ? 通常像停用词,会在分词的时候,直接被干掉,不会建立在倒排索引中 ) ---- IK自定义词库 自定义词库 有一些特殊的流行词,一般不会在ik的原生词典main.dic里。 这个时候,我们用ikik_max_word分词器来查下分词 GET _analyze { "text": ["盘他","杠精","脱粉"], "analyzer": "ik_max_word" ---- Step2 : 添加到ik的配置文件中 在 ext_ditc节点 添加自定义的扩展字典 , ik本身提供的 extra_main.dic 词语更加丰富,这里我们也添加进去吧 ? ---- Step2 : 添加到ik的配置文件中 在 ext_stopwords节点 添加自定义的停用词扩展字典 , ik本身提供的 extra_stopword.dic 这里我们也添加进去吧 ?

    1.8K30发布于 2021-08-17
  • 来自专栏程序员历小冰

    ElasticSearch 如何使用 ik 进行中文分词?

    进行分词,让大家对 ElasticSearch 的全文搜索和 ik 中文分词原理有一个全面且深入的了解。 ElasticSearch 默认的分词器并不是处理中文分词的最优选择,目前业界主要使用 ik 进行中文分词。 ik 分词原理 ik 是目前较为主流的 ElasticSearch 开源中文分词组件,它内置了基础的中文词库和分词算法帮忙开发者快速构建中文分词和搜索功能,它还提供了扩展词库字典和远程字典等功能,方便开发者扩充网络新词或流行语 incrementToken 函数会调用 IKSegmenter 的 next方法,来获取分词结果,它是 ik 分词的核心方法。 这也是 ikik_max_word 模式的输出结果。但是有些场景,开发者希望只有 程序员、爱 和 编程 三个分词结果,这时就需要使用 ikik_smart 模式,也就是进行消除歧义处理。

    1.9K10发布于 2021-04-12
  • 【Elasticsearch系列十八】Ik 分词器

    安装官网:https://github.com/medcl/elasticsearch-analysis-ik下载地址:https://github.com/medcl/elasticsearch-analysis-ik 我用的是 v7.12.0 的版本,注意版本对齐#进入插件目录/usr/local/elasticsearch-7.12.0/plugins#创建ik目录mkdir ik#从mac传文件到服务器scp / -7.12.0/plugins/ik#解压unzip elasticsearch-analysis-ik-7.12.0.zip#重启es3.ik 分词器的使用两个重要的属性:ik_max_word: 存储时,使用 ik_max_word,搜索时,使用 ik_smartPUT /my_index{ "mappings": { "properties": { "text": { q=中华人民共和国人民大会堂4.ik 配置文件ik 配置文件地址:es/plugins/ik/config 目录IKAnalyzer.cfg.xml:用来配置自定义词库main.dic:ik 原生内置的中文词库

    97710编辑于 2024-09-22
  • 来自专栏思考是一种快乐

    Elasticsearch下安装IK中文分词器

    ,其所在目录为/usr/local/elasticsearch-5.5.2 下载 curl -L -O https://github.com/medcl/elasticsearch-analysis-ik /releases/download/v5.5.2/elasticsearch-analysis-ik-5.5.2.zip 解压到 /usr/local/elasticsearch-5.5.2/plugins / , 目录结构如下 ├── plugins │ └── elasticsearch-analysis-ik │ ├── commons-codec-1.9.jar │ ├─ : "ik_max_word", "include_in_all": "true" }, ... 已有大数据需要重建索引 参考 https://github.com/medcl/elasticsearch-analysis-ik

    69330发布于 2019-09-23
领券