搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏数据饕餮
开源中文分词框架分词效果对比smartcn与IKanalyzer
我是一个守旧的人，评估版本的选择有些保守，至少目前为止，只看1.0正式版本之后的版本，0.XX的不在考虑范围之内，用了一个周末的时间，对比了十多款的样子，个人感觉源于中科院ICTCLAS的smartcn lucene中的Tokenstram方法首先创建一个tokenizer对象处理Reader对象中的流式文本，然后利用TokenFilter对输出流进行过滤处理"; 2.2 smartcn lucen\ tokenstram\方法\首先\创建\一个\一\个\tokenizer\对象\处理\reader\对象\中\的\流式\文本\然后\利用\tokenfilter\对\输出\流进\进行\过滤\处理\ 三、smartcn ex.printStackTrace(); 30 } 31 32 } 33 } 五、结论 1.二者分词效果，相比其他已经不错，都值得肯定； 2.smartcn Lucene4.6版本自带（之前版本也有），中文分词不错，英文分词有问题，Lucene分词后变成了Luncn； 3.IKAnalyzer分词后的碎片太多，可以和人工分析效果做对比； 4.从自定义词库的角度考虑，因为smartcn
2.9K50发布于 2019-01-14
来自专栏cwl_Java
ElasticSearch(7.2.2)-常⻅中⽂分词器的使⽤
默认的分词器standard POST localhost:9200/_analyze { "analyzer": "standard", "text": "⽕箭明年总冠军" } 常⻅分词器 smartCN ⼀个简单的中⽂或中英⽂混合⽂本的分词器 IK分词器更智能更友好的中⽂分词器 smartCn 安装 sh elasticsearch-plugin install analysis-smartcn 卸载 sh elasticsearch-plugin remove analysis-smartcn 检验安装后重新启动 POST localhost:9200/_analyze { "analyzer ": "smartcn", "text": "⽕箭明年总冠军" } IK分词器下载 https://github.com/medcl/elasticsearch-analysis-ik/releases
78620发布于 2019-11-04
来自专栏Hadoop实操
如何使用Lily HBase Indexer对HBase中的数据在Solr中建立索引
英文的分词和全文检索是默认自带的，中文的这里使用了一个开源的Solr的中文分词包lucene-analyzers-smartcn。 jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn [root@ip-172-31-8-230 solr-hdfs]# cp lucene-analyzers-smartcn -31-8-230 shell]# sh bk_cp.sh node.list /opt/cloudera/parcels/CDH/lib/hadoop-yarn/lucene-analyzers-smartcn -4.10.3-cdh5.14.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn lucene-analyzers-smartcn-4.10.3-cdh5.14.2 sh bk_cp.sh node.list /opt/cloudera/parcels/CDH/lib/solr/webapps/solr/WEB-INF/lib/lucene-analyzers-smartcn
6.6K30发布于 2018-07-12
来自专栏NLP/KG
ElasticSearch安装、插件介绍及Kibana的安装与使用详解
第三方插件建议使用离线安装方式第一种：命令行bin/elasticsearch-plugin install [plugin_name]#bin/elasticsearch-plugin install analysis-smartcn /elasticsearch-plugin install https://artifacts.elastic.co/downloads/elasticsearch-plugins/analysis-smartcn /analysis-smartcn-6.4.0.zip第三种：离线安装#https://artifacts.elastic.co/downloads/elasticsearch-plugins/analysis-smartcn /analysis-smartcn-6.4.0.zip#点击下载analysis-smartcn离线包#将离线包解压到ElasticSearch 安装目录下的 plugins 目录下#重启es。
2.5K20编辑于 2023-10-24
来自专栏JetpropelledSnake
ELK学习笔记之使用curl命令操作elasticsearch
j Prometheus analysis-ik NA j Prometheus analysis-ik NA j Prometheus analysis-smartcn j Xandu analysis-pinyin NA j Xandu analysis-mmseg NA j Xandu analysis-smartcn bigdesk/ Onyxx analysis-ik NA j Onyxx analysis-mmseg NA j Onyxx analysis-smartcn
1.9K30发布于 2019-05-17
来自专栏Hadoop实操
0700-6.2.0-使用Solr7对多种格式文件建立全文索引
下载以下几个jar包 lucene-analyzers-smartcn-7.4.0-cdh6.2.0.jar下载地址： https://archive.cloudera.com/cdh6/6.2.0/maven-repository /org/apache/lucene/lucene-analyzers-smartcn/7.4.0-cdh6.2.0/lucene-analyzers-smartcn-7.4.0-cdh6.2.0.jar 将lucene-analyzers-smartcn-7.4.0-cdh6.2.0.jar拷贝到所有节点的/opt/cloudera/parcels/CDH/lib/hadoop-yarn目录和/opt/ 但是本次测试时失败，所以额外又下载一个中文分词包lucene-analyzers-smartcn-7.4.0-cdh6.2.0.jar，看网上很多成功示例不需要下载，可能某一部分操作失误所致，后续再验证
2.2K20发布于 2019-09-18
来自专栏Hadoop实操
如何使用Flume准实时建立Solr的全文索引
英文的分词和全文检索是默认自带的，中文的这里使用了一个开源的Solr的中文分词包lucene-analyzers-smartcn。： https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn 包 https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn （可左右滑动）将中文分词jar包分发到所有机器的Solr和YARN服务相关的目录 [root@ip-172-31-8-230 solr-hdfs]# cp lucene-analyzers-smartcn -4.10.3-cdh5.14.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn lucene-analyzers-smartcn-4.10.3-cdh5.14.2
1.9K20发布于 2018-07-12
来自专栏Hadoop实操
如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引
英文的分词和全文检索是默认自带的，中文的这里使用了一个开源的Solr的中文分词包lucene-analyzers-smartcn。： https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn 包 https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn （可左右滑动）将中文分词jar包分发到所有机器的Solr和YARN服务相关的目录 [root@ip-172-31-8-230 solr-hdfs]# cp lucene-analyzers-smartcn -4.10.3-cdh5.14.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn lucene-analyzers-smartcn-4.10.3-cdh5.14.2
7.6K41发布于 2018-07-12
来自专栏Java帮帮-微信公众号-技术文章全总结
solr使用教程【面试+工作】
目前可用的分词器有smartcn，IK，Jeasy，庖丁。其实主要是两种，一种是基于中科院ICTCLAS的隐式马尔科夫HMM算法的中文分词器，如smartcn，ictclas4j，优点是分词准确度高，缺点是不能使用用户自定义词库；另一种是基于最大匹配的分词器，下面给出两种分词器的安装方法，任选其一即可，推荐第一种，因为smartcn就在solr发行包的contrib/analysis-extras/lucene-libs/下，就是lucene-analyzers-smartcn <fieldType name="text_<em>smartcn</em>" class="solr.TextField" positionIncrementGap="0"> <analyzer type= <field name ="text" type ="text_<em>smartcn</em>" indexed ="true" stored ="false" multiValued ="true"/> 5.3.2.
8.8K60发布于 2018-04-17
来自专栏Jed的技术阶梯
018.Elasticsearch分词器原理及使用
常见的中文分词器 smartCN ：一个简单的中⽂或中英⽂混合文本分词器 IK分词器：更智能更友好的中⽂分词器 3.2 smartCN安装方式 bin/elasticsearch-plugin install analysis-smartcn 完成后重启ES集群，测试： GET _analyze { "analyzer": "smartcn", "text": "火箭明年总冠军" } { "tokens
1.7K10发布于 2020-07-06
来自专栏从流域到海域
ES中文检索须知：分词器与中文分词器
中文分词器常用的中文分词器有两个比较主流的：ik analyzer和smartcn（Smart Chinese Analyzer） ik analyzer ik analyzer 是一个基于开源项目IK 尽可能分出更少的词 git上下载插件，存到es插件目录，重启es服务即可使用： wget https://github.com/medcl/elasticsearch-analysis-ik/releases smartcn smartcn是es内置的中文分词器，使用机器学习算法进行分词，同时适用于简体中文和繁体中文，具有较高的分词准确率和召回率，适用于大多数中文文本检索场景。
1.7K20编辑于 2024-04-22
来自专栏johnhuster
solr analysis页面分析
注： 1.ST指的是存储到solr中的数据，WTF指的是WordTokenFilter，name字段我采用的是smartcn中文分词器。
40410编辑于 2022-03-29
来自专栏kl的专栏
Elasticsearch初探，Windows下环境搭建及集群配置
以及一目了然的数据信息中文分词插件国内使用的话当然还需要一个中文分词的插件，Elasticsearch默认的分词器对中文的支持不是很好，一元分词，只是单个的去标点的单字拆分，这里我们安装一个smartcn Lucene中文分词那篇文章中有讲到http://www.kailing.pub/article/index/arcid/76.html 安装分词：plugin install analysis-smartcn
70740编辑于 2023-11-18
来自专栏hadoop学习笔记
hanlp中文智能分词自动识别文字提取实例
，找到了一下开源项目 1、word 分词器 2、ansj 分词器 3、mmseg4j 分词器 4、ik-analyzer 分词器 5、jcseg 分词器 6、fudannlp 分词器 7、smartcn
3.5K00发布于 2018-11-30
来自专栏java一日一条
11个Java开源中文分词器使用方法和分词效果对比
10、smartcn分词器 ? 11、HanLP分词器 ? ? 现在我们已经实现了本文的第一个目的：学会使用11大Java开源中文分词器。
11.2K41发布于 2018-09-18
来自专栏架构师专栏
Spring Boot 中使用 Java API 调用 lucene
--smartcn 中文分词器 SmartChineseAnalyzer smartcn分词器需要lucene依赖且和lucene版本同步--> <dependency> <groupId>org.apache.lucene </groupId> <artifactId>lucene-analyzers-smartcn</artifactId> <version>7.1.0</version> </dependency> 中文分词器 /** * IKAnalyzer 中文分词器 * SmartChineseAnalyzer smartcn分词器需要lucene依赖且和lucene版本同步 * * @throws
3.1K50发布于 2018-02-09
来自专栏hanlp学习笔记
使用HanLP增强Elasticsearch分词功能
官方有一个 SmartCN 中文分词插件，另外还有一个 IK 分词插件使用也比较广。但这里，我们采用 HanLP 这款自然语言处理工具来进行中文分词。
1.6K20发布于 2018-10-12
来自专栏开源部署
Maven如何手动添加依赖的jar文件到本地Maven仓库
scope> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-smartcn
2.1K10编辑于 2022-06-29
来自专栏ZKEASOFT
使用Lucene.Net做一个简单的搜索引擎-全文索引
lucenenet 添加nuget包引用首先我们要在项目中引用Lucene.Net的相关引用，不同的语言要使用的分析器（Analyzer）是不一样的，这里我们使用Lucene.Net.Analysis.SmartCn 当前Lucene.Net.Analysis.SmartCn包还未发布正式版，所以搜索时要勾选“包括预发行版本”： IndexWriter IndexWriter用于将文档索引起来，它会使用对应的分析器
1.4K00发布于 2020-02-29
来自专栏crossoverJie
SSM(二)Lucene全文检索
-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-analyzers-smartcn --> <dependency > <groupId>org.apache.lucene</groupId> <artifactId>lucene-analyzers-smartcn</
44320编辑于 2022-08-19

第 2 页第 3 页

点击加载更多

开源中文分词框架分词效果对比smartcn与IKanalyzer

ElasticSearch(7.2.2)-常⻅中⽂分词器的使⽤

如何使用Lily HBase Indexer对HBase中的数据在Solr中建立索引

ElasticSearch安装、插件介绍及Kibana的安装与使用详解

ELK学习笔记之使用curl命令操作elasticsearch

0700-6.2.0-使用Solr7对多种格式文件建立全文索引

如何使用Flume准实时建立Solr的全文索引

如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引

solr使用教程【面试+工作】

018.Elasticsearch分词器原理及使用

ES中文检索须知：分词器与中文分词器

solr analysis页面分析

Elasticsearch初探，Windows下环境搭建及集群配置

hanlp中文智能分词自动识别文字提取实例

11个Java开源中文分词器使用方法和分词效果对比

Spring Boot 中使用 Java API 调用 lucene

使用HanLP增强Elasticsearch分词功能

Maven如何手动添加依赖的jar文件到本地Maven仓库

使用Lucene.Net做一个简单的搜索引擎-全文索引

SSM(二)Lucene全文检索

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐