首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据饕餮

    开源中文分词框架分词效果对比smartcn与IKanalyzer

    我是一个守旧的人,评估版本的选择有些保守,至少目前为止,只看1.0正式版本之后的版本,0.XX的不在考虑范围之内,用了一个周末的时间,对比了十多款的样子,个人感觉源于中科院ICTCLAS的smartcn lucene中的Tokenstram方法首先创建一个tokenizer对象处理Reader对象中的流式文本,然后利用TokenFilter对输出流进行过滤处理"; 2.2 smartcn lucen\ tokenstram\方法\首先\创建\一个\一\个\tokenizer\对象\处理\reader\对象\中\的\流式\文本\然后\利用\tokenfilter\对\输出\流进\进行\过滤\处理\ 三、smartcn ex.printStackTrace(); 30 } 31 32 } 33 } 五、结论 1.二者分词效果,相比其他已经不错,都值得肯定; 2.smartcn Lucene4.6版本自带(之前版本也有),中文分词不错,英文分词有问题,Lucene分词后变成了Luncn; 3.IKAnalyzer分词后的碎片太多,可以和人工分析效果做对比; 4.从自定义词库的角度考虑,因为smartcn

    2.9K50发布于 2019-01-14
  • 来自专栏cwl_Java

    ElasticSearch(7.2.2)-常⻅中⽂分词器的使⽤

    默认的分词器standard POST localhost:9200/_analyze { "analyzer": "standard", "text": "⽕箭明年总冠军" } 常⻅分词器 smartCN ⼀个简单的中⽂或中英⽂混合⽂本的分词器 IK分词器 更智能更友好的中⽂分词器 smartCn 安装 sh elasticsearch-plugin install analysis-smartcn 卸载 sh elasticsearch-plugin remove analysis-smartcn 检验 安装后重新启动 POST localhost:9200/_analyze { "analyzer ": "smartcn", "text": "⽕箭明年总冠军" } IK分词器 下载 https://github.com/medcl/elasticsearch-analysis-ik/releases

    78620发布于 2019-11-04
  • 来自专栏Hadoop实操

    如何使用Lily HBase Indexer对HBase中的数据在Solr中建立索引

    英文的分词和全文检索是默认自带的,中文的这里使用了一个开源的Solr的中文分词包lucene-analyzers-smartcn。 jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn [root@ip-172-31-8-230 solr-hdfs]# cp lucene-analyzers-smartcn -31-8-230 shell]# sh bk_cp.sh node.list /opt/cloudera/parcels/CDH/lib/hadoop-yarn/lucene-analyzers-smartcn -4.10.3-cdh5.14.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn lucene-analyzers-smartcn-4.10.3-cdh5.14.2 sh bk_cp.sh node.list /opt/cloudera/parcels/CDH/lib/solr/webapps/solr/WEB-INF/lib/lucene-analyzers-smartcn

    6.6K30发布于 2018-07-12
  • 来自专栏NLP/KG

    ElasticSearch安装、插件介绍及Kibana的安装与使用详解

    第三方插件建议使用离线安装方式第一种:命令行bin/elasticsearch-plugin install [plugin_name]#bin/elasticsearch-plugin install analysis-smartcn /elasticsearch-plugin install https://artifacts.elastic.co/downloads/elasticsearch-plugins/analysis-smartcn /analysis-smartcn-6.4.0.zip第三种:离线安装#https://artifacts.elastic.co/downloads/elasticsearch-plugins/analysis-smartcn /analysis-smartcn-6.4.0.zip#点击下载analysis-smartcn离线包#将离线包解压到ElasticSearch 安装目录下的 plugins 目录下#重启es。

    2.5K20编辑于 2023-10-24
  • 来自专栏JetpropelledSnake

    ELK学习笔记之使用curl命令操作elasticsearch

    j Prometheus analysis-ik NA j Prometheus analysis-ik NA j Prometheus analysis-smartcn j Xandu analysis-pinyin NA j Xandu analysis-mmseg NA j Xandu analysis-smartcn bigdesk/ Onyxx analysis-ik NA j Onyxx analysis-mmseg NA j Onyxx analysis-smartcn

    1.9K30发布于 2019-05-17
  • 来自专栏Hadoop实操

    0700-6.2.0-使用Solr7对多种格式文件建立全文索引

    下载以下几个jar包 lucene-analyzers-smartcn-7.4.0-cdh6.2.0.jar下载地址: https://archive.cloudera.com/cdh6/6.2.0/maven-repository /org/apache/lucene/lucene-analyzers-smartcn/7.4.0-cdh6.2.0/lucene-analyzers-smartcn-7.4.0-cdh6.2.0.jar 将lucene-analyzers-smartcn-7.4.0-cdh6.2.0.jar拷贝到所有节点的/opt/cloudera/parcels/CDH/lib/hadoop-yarn目录和/opt/ 但是本次测试时失败,所以额外又下载一个中文分词包lucene-analyzers-smartcn-7.4.0-cdh6.2.0.jar,看网上很多成功示例不需要下载,可能某一部分操作失误所致,后续再验证

    2.2K20发布于 2019-09-18
  • 来自专栏Hadoop实操

    如何使用Flume准实时建立Solr的全文索引

    英文的分词和全文检索是默认自带的,中文的这里使用了一个开源的Solr的中文分词包lucene-analyzers-smartcn。 : https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn 包 https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn (可左右滑动) 将中文分词jar包分发到所有机器的Solr和YARN服务相关的目录 [root@ip-172-31-8-230 solr-hdfs]# cp lucene-analyzers-smartcn -4.10.3-cdh5.14.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn lucene-analyzers-smartcn-4.10.3-cdh5.14.2

    1.9K20发布于 2018-07-12
  • 来自专栏Hadoop实操

    如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引

    英文的分词和全文检索是默认自带的,中文的这里使用了一个开源的Solr的中文分词包lucene-analyzers-smartcn。 : https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn 包 https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn (可左右滑动) 将中文分词jar包分发到所有机器的Solr和YARN服务相关的目录 [root@ip-172-31-8-230 solr-hdfs]# cp lucene-analyzers-smartcn -4.10.3-cdh5.14.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-yarn lucene-analyzers-smartcn-4.10.3-cdh5.14.2

    7.6K41发布于 2018-07-12
  • 来自专栏Java帮帮-微信公众号-技术文章全总结

    solr使用教程【面试+工作】

    目前可用的分词器有smartcn,IK,Jeasy,庖丁。 其实主要是两种,一种是基于中科院ICTCLAS的隐式马尔科夫HMM算法的中文分词器,如smartcn,ictclas4j,优点是分词准确度高,缺点是不能使用用户自定义词库;另一种是基于最大匹配的分词器, 下面给出两种分词器的安装方法,任选其一即可,推荐第一种,因为smartcn就在solr发行包的contrib/analysis-extras/lucene-libs/下,就是lucene-analyzers-smartcn <fieldType name="text_<em>smartcn</em>" class="solr.TextField" positionIncrementGap="0"> <analyzer type= <field name ="text" type ="text_<em>smartcn</em>" indexed ="true" stored ="false" multiValued ="true"/> 5.3.2.

    8.8K60发布于 2018-04-17
  • 来自专栏Jed的技术阶梯

    018.Elasticsearch分词器原理及使用

    常见的中文分词器 smartCN :一个简单的中⽂或中英⽂混合文本分词器 IK分词器:更智能更友好的中⽂分词器 3.2 smartCN安装方式 bin/elasticsearch-plugin install analysis-smartcn 完成后重启ES集群,测试: GET _analyze { "analyzer": "smartcn", "text": "火箭明年总冠军" } { "tokens

    1.7K10发布于 2020-07-06
  • 来自专栏从流域到海域

    ES中文检索须知:分词器与中文分词器

    中文分词器 常用的中文分词器有两个比较主流的:ik analyzer和smartcn(Smart Chinese Analyzer) ik analyzer ik analyzer 是一个基于开源项目IK 尽可能分出更少的词 git上下载插件,存到es插件目录,重启es服务即可使用: wget https://github.com/medcl/elasticsearch-analysis-ik/releases smartcn smartcn是es内置的中文分词器,使用机器学习算法进行分词,同时适用于简体中文和繁体中文,具有较高的分词准确率和召回率,适用于大多数中文文本检索场景。

    1.7K20编辑于 2024-04-22
  • 来自专栏johnhuster

    solr analysis页面分析

    注: 1.ST指的是存储到solr中的数据,WTF指的是WordTokenFilter,name字段我采用的是smartcn中文分词器。

    40410编辑于 2022-03-29
  • 来自专栏kl的专栏

    Elasticsearch初探,Windows下环境搭建及集群配置

    以及一目了然的数据信息 中文分词插件 国内使用的话当然还需要一个中文分词的插件,Elasticsearch默认的分词器对中文的支持不是很好,一元分词,只是单个的去标点的单字拆分,这里我们安装一个smartcn Lucene中文分词那篇文章中有讲到http://www.kailing.pub/article/index/arcid/76.html 安装分词:plugin install analysis-smartcn

    70740编辑于 2023-11-18
  • 来自专栏hadoop学习笔记

    hanlp中文智能分词自动识别文字提取实例

    ,找到了一下开源项目 1、word 分词器 2、ansj 分词器 3、mmseg4j 分词器 4、ik-analyzer 分词器 5、jcseg 分词器 6、fudannlp 分词器 7、smartcn

    3.5K00发布于 2018-11-30
  • 来自专栏java一日一条

    11个Java开源中文分词器使用方法和分词效果对比

    10、smartcn分词器 ? 11、HanLP分词器 ? ? 现在我们已经实现了本文的第一个目的:学会使用11大Java开源中文分词器。

    11.2K41发布于 2018-09-18
  • 来自专栏架构师专栏

    Spring Boot 中使用 Java API 调用 lucene

    --smartcn 中文分词器 SmartChineseAnalyzer smartcn分词器 需要lucene依赖 且和lucene版本同步--> <dependency> <groupId>org.apache.lucene </groupId> <artifactId>lucene-analyzers-smartcn</artifactId> <version>7.1.0</version> </dependency> 中文分词器 /** * IKAnalyzer 中文分词器 * SmartChineseAnalyzer smartcn分词器 需要lucene依赖 且和lucene版本同步 * * @throws

    3.1K50发布于 2018-02-09
  • 来自专栏hanlp学习笔记

    使用HanLP增强Elasticsearch分词功能

    官方有一个 SmartCN 中文分词插件,另外还有一个 IK 分词插件使用也比较广。但这里,我们采用 HanLP 这款 自然语言处理工具 来进行中文分词。

    1.6K20发布于 2018-10-12
  • 来自专栏开源部署

    Maven如何手动添加依赖的jar文件到本地Maven仓库

    scope>   </dependency>   <dependency>    <groupId>org.apache.lucene</groupId>    <artifactId>lucene-smartcn

    2.1K10编辑于 2022-06-29
  • 来自专栏ZKEASOFT

    使用Lucene.Net做一个简单的搜索引擎-全文索引

    lucenenet 添加nuget包引用 首先我们要在项目中引用Lucene.Net的相关引用,不同的语言要使用的分析器(Analyzer)是不一样的,这里我们使用Lucene.Net.Analysis.SmartCn 当前Lucene.Net.Analysis.SmartCn包还未发布正式版,所以搜索时要勾选“包括预发行版本”: IndexWriter IndexWriter用于将文档索引起来,它会使用对应的分析器

    1.4K00发布于 2020-02-29
  • 来自专栏crossoverJie

    SSM(二)Lucene全文检索

    -- https://mvnrepository.com/artifact/org.apache.lucene/lucene-analyzers-smartcn --> <dependency > <groupId>org.apache.lucene</groupId> <artifactId>lucene-analyzers-smartcn</

    44320编辑于 2022-08-19
领券