我是一个守旧的人,评估版本的选择有些保守,至少目前为止,只看1.0正式版本之后的版本,0.XX的不在考虑范围之内,用了一个周末的时间,对比了十多款的样子,个人感觉源于中科院ICTCLAS的smartcn lucene中的Tokenstram方法首先创建一个tokenizer对象处理Reader对象中的流式文本,然后利用TokenFilter对输出流进行过滤处理"; 2.2 smartcn lucen\ tokenstram\方法\首先\创建\一个\一\个\tokenizer\对象\处理\reader\对象\中\的\流式\文本\然后\利用\tokenfilter\对\输出\流进\进行\过滤\处理\ 三、smartcn ex.printStackTrace(); 30 } 31 32 } 33 } 五、结论 1.二者分词效果,相比其他已经不错,都值得肯定; 2.smartcn Lucene4.6版本自带(之前版本也有),中文分词不错,英文分词有问题,Lucene分词后变成了Luncn; 3.IKAnalyzer分词后的碎片太多,可以和人工分析效果做对比; 4.从自定义词库的角度考虑,因为smartcn
默认的分词器standard POST localhost:9200/_analyze { "analyzer": "standard", "text": "⽕箭明年总冠军" } 常⻅分词器 smartCN ⼀个简单的中⽂或中英⽂混合⽂本的分词器 IK分词器 更智能更友好的中⽂分词器 smartCn 安装 sh elasticsearch-plugin install analysis-smartcn 卸载 sh elasticsearch-plugin remove analysis-smartcn 检验 安装后重新启动 POST localhost:9200/_analyze { "analyzer ": "smartcn", "text": "⽕箭明年总冠军" } IK分词器 下载 https://github.com/medcl/elasticsearch-analysis-ik/releases
英文的分词和全文检索是默认自带的,中文的这里使用了一个开源的Solr的中文分词包lucene-analyzers-smartcn。 jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn [root@ip-172-31-8-230 solr-hdfs]# cp lucene-analyzers-smartcn -31-8-230 shell]# sh bk_cp.sh node.list /opt/cloudera/parcels/CDH/lib/hadoop-yarn/lucene-analyzers-smartcn -4.10.3-cdh5.14.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn lucene-analyzers-smartcn-4.10.3-cdh5.14.2 sh bk_cp.sh node.list /opt/cloudera/parcels/CDH/lib/solr/webapps/solr/WEB-INF/lib/lucene-analyzers-smartcn
第三方插件建议使用离线安装方式第一种:命令行bin/elasticsearch-plugin install [plugin_name]#bin/elasticsearch-plugin install analysis-smartcn /elasticsearch-plugin install https://artifacts.elastic.co/downloads/elasticsearch-plugins/analysis-smartcn /analysis-smartcn-6.4.0.zip第三种:离线安装#https://artifacts.elastic.co/downloads/elasticsearch-plugins/analysis-smartcn /analysis-smartcn-6.4.0.zip#点击下载analysis-smartcn离线包#将离线包解压到ElasticSearch 安装目录下的 plugins 目录下#重启es。
j Prometheus analysis-ik NA j Prometheus analysis-ik NA j Prometheus analysis-smartcn j Xandu analysis-pinyin NA j Xandu analysis-mmseg NA j Xandu analysis-smartcn bigdesk/ Onyxx analysis-ik NA j Onyxx analysis-mmseg NA j Onyxx analysis-smartcn
下载以下几个jar包 lucene-analyzers-smartcn-7.4.0-cdh6.2.0.jar下载地址: https://archive.cloudera.com/cdh6/6.2.0/maven-repository /org/apache/lucene/lucene-analyzers-smartcn/7.4.0-cdh6.2.0/lucene-analyzers-smartcn-7.4.0-cdh6.2.0.jar 将lucene-analyzers-smartcn-7.4.0-cdh6.2.0.jar拷贝到所有节点的/opt/cloudera/parcels/CDH/lib/hadoop-yarn目录和/opt/ 但是本次测试时失败,所以额外又下载一个中文分词包lucene-analyzers-smartcn-7.4.0-cdh6.2.0.jar,看网上很多成功示例不需要下载,可能某一部分操作失误所致,后续再验证
英文的分词和全文检索是默认自带的,中文的这里使用了一个开源的Solr的中文分词包lucene-analyzers-smartcn。 : https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn 包 https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn (可左右滑动) 将中文分词jar包分发到所有机器的Solr和YARN服务相关的目录 [root@ip-172-31-8-230 solr-hdfs]# cp lucene-analyzers-smartcn -4.10.3-cdh5.14.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn lucene-analyzers-smartcn-4.10.3-cdh5.14.2
英文的分词和全文检索是默认自带的,中文的这里使用了一个开源的Solr的中文分词包lucene-analyzers-smartcn。 : https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn 包 https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn (可左右滑动) 将中文分词jar包分发到所有机器的Solr和YARN服务相关的目录 [root@ip-172-31-8-230 solr-hdfs]# cp lucene-analyzers-smartcn -4.10.3-cdh5.14.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn lucene-analyzers-smartcn-4.10.3-cdh5.14.2
目前可用的分词器有smartcn,IK,Jeasy,庖丁。 其实主要是两种,一种是基于中科院ICTCLAS的隐式马尔科夫HMM算法的中文分词器,如smartcn,ictclas4j,优点是分词准确度高,缺点是不能使用用户自定义词库;另一种是基于最大匹配的分词器, 下面给出两种分词器的安装方法,任选其一即可,推荐第一种,因为smartcn就在solr发行包的contrib/analysis-extras/lucene-libs/下,就是lucene-analyzers-smartcn <fieldType name="text_<em>smartcn</em>" class="solr.TextField" positionIncrementGap="0"> <analyzer type= <field name ="text" type ="text_<em>smartcn</em>" indexed ="true" stored ="false" multiValued ="true"/> 5.3.2.
常见的中文分词器 smartCN :一个简单的中⽂或中英⽂混合文本分词器 IK分词器:更智能更友好的中⽂分词器 3.2 smartCN安装方式 bin/elasticsearch-plugin install analysis-smartcn 完成后重启ES集群,测试: GET _analyze { "analyzer": "smartcn", "text": "火箭明年总冠军" } { "tokens
中文分词器 常用的中文分词器有两个比较主流的:ik analyzer和smartcn(Smart Chinese Analyzer) ik analyzer ik analyzer 是一个基于开源项目IK 尽可能分出更少的词 git上下载插件,存到es插件目录,重启es服务即可使用: wget https://github.com/medcl/elasticsearch-analysis-ik/releases smartcn smartcn是es内置的中文分词器,使用机器学习算法进行分词,同时适用于简体中文和繁体中文,具有较高的分词准确率和召回率,适用于大多数中文文本检索场景。
注: 1.ST指的是存储到solr中的数据,WTF指的是WordTokenFilter,name字段我采用的是smartcn中文分词器。
以及一目了然的数据信息 中文分词插件 国内使用的话当然还需要一个中文分词的插件,Elasticsearch默认的分词器对中文的支持不是很好,一元分词,只是单个的去标点的单字拆分,这里我们安装一个smartcn Lucene中文分词那篇文章中有讲到http://www.kailing.pub/article/index/arcid/76.html 安装分词:plugin install analysis-smartcn
,找到了一下开源项目 1、word 分词器 2、ansj 分词器 3、mmseg4j 分词器 4、ik-analyzer 分词器 5、jcseg 分词器 6、fudannlp 分词器 7、smartcn
10、smartcn分词器 ? 11、HanLP分词器 ? ? 现在我们已经实现了本文的第一个目的:学会使用11大Java开源中文分词器。
--smartcn 中文分词器 SmartChineseAnalyzer smartcn分词器 需要lucene依赖 且和lucene版本同步--> <dependency> <groupId>org.apache.lucene </groupId> <artifactId>lucene-analyzers-smartcn</artifactId> <version>7.1.0</version> </dependency> 中文分词器 /** * IKAnalyzer 中文分词器 * SmartChineseAnalyzer smartcn分词器 需要lucene依赖 且和lucene版本同步 * * @throws
官方有一个 SmartCN 中文分词插件,另外还有一个 IK 分词插件使用也比较广。但这里,我们采用 HanLP 这款 自然语言处理工具 来进行中文分词。
scope> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-smartcn
lucenenet 添加nuget包引用 首先我们要在项目中引用Lucene.Net的相关引用,不同的语言要使用的分析器(Analyzer)是不一样的,这里我们使用Lucene.Net.Analysis.SmartCn 当前Lucene.Net.Analysis.SmartCn包还未发布正式版,所以搜索时要勾选“包括预发行版本”: IndexWriter IndexWriter用于将文档索引起来,它会使用对应的分析器
-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-analyzers-smartcn --> <dependency > <groupId>org.apache.lucene</groupId> <artifactId>lucene-analyzers-smartcn</