搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏cc log
Swift 3 分词
toc 发布Hipo Mac 版本后，花了一天时间升级Hipo iOS代码到Swift 3，然后准备为Hipo iOS 增加spotlight 搜索功能，因此就需要分词作为搜索的关键词。
63210编辑于 2022-08-16
来自专栏机器学习原理
NLP（2）——中文分词分词的概念分词方法分类CRFHMM分词
分词的概念简单来说就是把词进行分开，分词的难点： 1.如何避免歧义，如：“白开水不如果汁甜”。如何让机器避免将“如果”分到一起。分词方法分类基于词典的分词算法基于词典的分词算法又称为机械分词算法，它是按照一定的策略将待分析的汉字串与一个“充分大的机器词典”中的词条进行匹配 , 若在词典中找到某个字符串, 则匹配成功,认为这个字串是词并将之切分出来基于词典的分词算法有三个要素,分词词典、扫描方向（正向、逆向）和匹配原则（最大匹配，最小匹配等）[2]。正向最大匹配算法。基于统计的分词算法和基于理解的分词算法基于统计的分词算法主要思想是，词是稳定的字的组合，两个字在文本中连续出现的次数越多，就越有可能组合成一个词。 3）CRF是给定观察序列的条件下，计算整个标记序列的联合概率。而HMM是给定当前状态，计算下一个状态。
2.4K50发布于 2018-07-24
来自专栏全栈程序员必看
结巴分词库_中文分词
一、（3）结巴分词在介绍结巴分词前，我们先以一个简单的例子演示一下分词，例如有这样一句话：“结巴分词是一个效率很好的分词方法”，一般我们会直观地从左向右扫视这句话，接着分词成“结巴 / 分词 / 是数字1-7代表每个词位置，对于位置1，就是1-1的意思，表示“在”一字，对于2-（2、3、5），表示从位置2开始，2-2、2-3、2-5都表示词，即“财”、“财经”、“财经大学”，对于每一个位置的划分，，我们就需要计算出最大概率的路径，从而获得概率最大的切分词结果因为有向无环图DAG的每个节点都是带权的，权重为前缀词典中每个词的词频；我们需要求得route = (w1,w2,w3,…,wn)，使得（3）对于未登录词，采用了基于汉字成词能力的隐马尔可夫模型（HMM）模型，使用了 Viterbi 算法 ——利用HMM模型进行分词，主要是将分词问题视为一个序列标注（sequence labeling ./ .一 .数 .日 / // 0 1 2 3 4 5 6 7 8 9 : :// :: ; < = > >> ?
1.9K10编辑于 2022-11-01
来自专栏房东的猫
Elasticsearch分词：Ansj分词器
精准分词是Ansj分词的店长推荐款。 NlpAnalysis 带有新词发现功能的分词 nlp分词是总能给你惊喜的一种分词方式。 IndexAnalysis 面向索引的分词面向索引的分词。顾名思义就是适合在lucene等文本检索中用到的分词。主要考虑以下两点召回率 * 召回率是对分词结果尽可能的涵盖。，采用幂等策略：w1=w2 w2=w3 w1=w3 人类生人全人类人手人员人口人丁口食指劳力劳动力工作者匹夫个人家伙东西货色厮崽子兔崽子狗崽子小子杂种畜生 keyword=英文版是小田亲自翻译的英文版/n,小田/nr,亲自/d 请求3：localhost:2000/ansj-master/stop/insertStopWordsLibrary?
4.1K11发布于 2021-07-16
来自专栏房东的猫
Elasticsearch分词：内置分词器
"Set the shape to semi-transparent by calling set_trans(5)" 标准分词器（默认使用）分词结果： set, the, shape, to, semi " : 3 }, { "token" : "和医", "start_offset" : 3, "end_offset" : 5, "type IDEOGRAPHIC>", "position" : 3 }, { "token" : "和医", "start_offset" : 3, " : 3 }, { "token" : "和医院", "start_offset" : 3, "end_offset" : 6, " " : 3 } ] } 逗号分词器 { "analysis":{ "analyzer":{ "comma":{
2.4K71发布于 2020-12-18
来自专栏Coding01
用 TensorFlow_text(3) 构建 Rasa 中文分词 tokenizer
Tokenizer 3. Registry File 4. Train and Test 5. Conclusion 了解结巴分词代码为了开始自建插件，我们先拿一个JiebaTokenizer[2]源代码做测试，并在分词处打印出分词效果： ... def tokenize(self, message : oov token_pattern: '(? [('我', 0, 1), ('想', 1, 2), ('找', 2, 3), ('地方', 3, 5), ('吃饭', 5, 7)] ****** { "text": "我想找地方吃饭", " _apply_token_pattern(tokensData) 初步模仿结巴分词代码，并直接打印出 log，看看分词的效果。
1.7K10发布于 2021-02-24
来自专栏大模型系列
万字长文：解密 AI 时代的原子——Token 的分词、计费与隐私计算
第一章：Token 的诞生——大模型分词器（Tokenizer）全解析 Token 并非天然存在，而是由一个名为 Tokenizer（分词器）的组件创造出来的。它是连接人类语言与机器语言的桥梁。计费基础：API 按 Token 计费，意味着发送一段中文文本的成本大约是同等意思英文文本的 2-3 倍。考虑私有化部署：对于高度敏感的场景，将开源模型（如 Llama 3）部署在自己的私有云或 VPC 内，从根本上杜绝数据外泄。 4.3 无 Token 模型（Token-free Models）终极目标或许是构建完全不需要显式分词的模型，它们能像人一样直接从原始字节流中学习。虽然目前仍是研究前沿，但这代表了摆脱 Token 限制的一种可能方向。总结 Token 远不止是一个计费单位。它是：算法的产物：由 BPE 等精巧的分词算法从原始文本中提炼出的语义单元。
1.2K40编辑于 2026-03-25
来自专栏产品经理的人工智能学习库
分词 – Tokenization
分词是 NLP 的基础任务，将句子，段落分解为字词单位，方便后续的处理的分析。本文将介绍分词的原因，中英文分词的3个区别，中文分词的3大难点，分词的3种典型方法。不过在一些特定任务中，分词还是必要的。如：关键词提取、命名实体识别等。中英文分的3个典型区别 ? 区别1：分词方式不同，中文更难英文有天然的空格作为分隔符，但是中文没有。中文分词的3大难点 ? 难点 1：没有统一的标准目前中文分词没有统一的标准，也没有公认的规范。不同的公司和组织各有各的方法和规则。 3种典型的分词方法 ? 中文分词的3大难点没有统一的标准歧义词如何切分新词的识别 3个典型的分词方式：基于词典匹配基于统计基于深度学习百度百科+维基百科百度百科版本中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程
1.9K31发布于 2019-12-18
来自专栏房东的猫
Elasticsearch分词：自定义分词器
分词器把字符串分解成单个词条或者词汇单元。标准分析器里使用的标准分词器把一个字符串根据单词边界分解成单个词条，并且移除掉大部分的标点符号，然而还有其他不同行为的分词器存在。例如，关键词分词器完整地输出接收到的同样的字符串，并不做任何分词。空格分词器只根据空格分割文本。正则分词器根据匹配正则表达式来分割文本。在es中有几个默认的分词器。在es中有几个默认的分词过滤器。 "start_offset" : 12, "end_offset" : 17, "type" : "<ALPHANUM>", "position" : 3
8.5K21发布于 2021-07-20
来自专栏房东的猫
Elasticsearch分词：拼音分词器
offset is strictly constrained, overlapped tokens are not allowed, with this parameter, overlapped token "2019", "start_offset" : 0, "end_offset" : 0, "type" : "word", "position" : 3 }, { "token" : "liudehua2019", "start_offset" : 0, "end_offset" : 0, "type" : "word", "position" : 3 }, { "token" : "ldh2019", "start_offset" : 0, "end_offset" : 0, "type" : "word", "position" : 3 } ] }
2.4K11发布于 2020-12-28
来自专栏九陌斋
Jieba分词
Jieba jieba 是一个中文分词第三方库，被称为最好的 Python 中文分词库。支持三种分词模式：精确模式、全模式和搜索引擎模式，并且支持繁体分词和自定义词典。使用前需要额外安装（对应安装命令改为：pip install jieba）这里主要介绍jieba包的分词功能测试代码 # -*- coding: utf-8 -*- # @Time : 2022 完整代码 :::tip 方法有很多，提供两个最常用的，其实已经内置了很多功能了，根据实际情况改改代码就可以实现更强大的功能 ::: 清洗后分词并停用词 # -*- coding: utf-8 -*- # # @Author : MinChess # @File : stop.py # @Software: PyCharm import jieba import re # 利用jieba对文本进行分词 sent_list = map(textParse, sent_list) # 正则处理 # 获取停用词 stwlist = get_stop_words() # 分词并去除停用词
1.1K20编辑于 2022-12-26
来自专栏python前行者
Python分词模块推荐：jieba中文分词
，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法二、结巴中文分词支持的分词模式目前结巴分词支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来 jieba.cut_for_search方法接受一个参数：需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细注意：待分词的字符串可以是gbk字符串、utf-8字符串或者unicode 2、关键词抽取通过计算分词后的关键词的TF/IDF权重，来抽取重点关键词。 3.词性标注对一句话进行切分后，对每个词进行词性标注，是名词还是动词具体示例： # -*- coding:utf-8 -*- import jieba.analyse text = "结巴中文分词模块是一个非常好的Python分词组件" tags = jieba.analyse.extract_tags(text,2) print "关键词抽取:","/".join(
2K40发布于 2019-03-25
来自专栏Java架构师必看
结巴分词器_分词器原理
今天说一说结巴分词器_分词器原理,希望能够帮助大家进步!!! 安装jieba库：pip3 install jieba #结巴分词 # -*- coding:utf-8 -*- import sys import os import jieba sent = '天善智能是一个专注于商业智能 print (sent) 结巴分词模块有三种分词模式： 1. 全模式：把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义。 3.搜索引擎模式：在精确模式的基础上对长词再次切分，提高召回率，适合用于搜索引擎分词。这种搜索引擎模式也不错呢，更加细化了。进入我的jieba模块目录->看到有个dict的词典，打开->发现有 1.词 2.数字（代表词频，越高越容易匹配到） 3.词性。
76120编辑于 2022-06-28
来自专栏偷得浮生半日闲
Elasticsearch分词
内置分词分词器名称说明 Standard Analyzer 标准分词器适用于英语等 Simple Analyzer 简单分词器于非字母字符进行分词，单词会被转为小写字母 Whitespace " } 结果为 { "tokens" : [ { "token" : "中国农业银行", "start_offset" : 0, "end_offset" : 6, ik_max_word为最细粒度划分 GET _analyze { "analyzer":"ik_max_word", "text":"农业银行" } 结果为 { "tokens" : [ { "token "start_offset" : 0, "end_offset" : 4, "type" : "CN_WORD", "position" : 0 }, { "token "start_offset" : 0, "end_offset" : 2, "type" : "CN_WORD", "position" : 1 }, { "token
37910编辑于 2024-07-22
来自专栏python前行者
HanLP 分词
pyhanlp 安装其为 HanLP 的 Python 接口，支持自动下载与升级 HanLP，兼容 Python2、Python3。命令行交互式分词模式在命令行界面，使用命令 hanlp segment 进入交互分词模式，输入一个句子并回车，HanLP 会输出分词结果： $ hanlp segment 商品和服务商品/n 和/cc 定中关系 _ _ 2 先生先生 n n _ 5 主谓关系 _ _ 3 /w （2）自定义词典分词在没有使用自定义字典时的分词。 txt = "铁甲网是中国最大的工程机械交易平台。" print(HanLP.extractKeyword(document, 2)) # 自动摘要 print(HanLP.extractSummary(document, 3)) # 依存句法分析 print
1.7K30编辑于 2025-08-22
来自专栏崔哥的专栏
elasticsearch 分词
安装中文、拼音分词 https://github.com/medcl/elasticsearch-analysis-ik https://github.com/medcl/elasticsearch-analysis-pinyin plugins目录 root@57d58faf9b1e:/usr/share/elasticsearch/plugins# ls ik pinyin 重启elasticsearch使生效测试一下默认分词 pretty' -d' { "analyzer": "standard", "text":"22强烈推荐11" }' ik中文分词 curl -H "Content-Type: application pretty' -d' { "analyzer": "ik_max_word", "text":"22强烈推荐11" }' 拼音分词 curl -H "Content-Type: application
48810编辑于 2022-05-25
来自专栏接口自动化测试平台
SpringBoot结合Sa-token实现权限认证（3）
-- Sa-Token 权限认证，在线文档：https://sa-token.cc --><dependency> <groupId>cn.dev33</groupId> <artifactId >sa-token-spring-boot-starter</artifactId> <version>1.34.0</version></dependency>2、然后配置sa-token相关的参数：sa-token: # token名称 (同时也是cookie名称) token-name: token # token有效期，单位s 默认30天, -1代表永不过期 timeout false时每次登录新建一个token) is-share: true # token风格 token-style: uuid # 是否输出操作日志 is-log: true3 、Sa-Token 提供了扩展接口可以把token和session信息存储在Redis中，这里就按照文档集成进来，引入依赖<!
2.4K80编辑于 2023-05-17
来自专栏字根中文校对软件
中文分词和二元分词综合对比
中文分词和二元分词综合对比为了测试中文分词和二元分词的差异，现将初步的测试数据做了对比。关于二元分词可以参考车东先生的相关文章。采用中文分词每1M产生1.55M的索引文件，膨胀率1.55；每1M用时大约10秒；采用二元分词每1M产生2.21M的索引文件，膨胀率2.21；每1M用时大约7秒；从搜索结果来看，两者可以大致相同数量的搜索结果对文本进行中文分词的目的是要提高文档检索的相关性，由于相关性的算法（如下图）涉及到很多因素，所以对二元切分和中文分词切分显示结果到底谁更相关（人理解的意义相关？），还无法得出结论。（5.02倍）文档数 6802 6802 搜索：XX 236 （搜索结果（条）） 235（搜索结果（条）） XX 361 361 XX 769 768 XX 50 50 XX 41 41 XX 3 3 XX 0 0 最常出现的词： Rank = 查询Text出现的次数作者：lhelper 我要去桂林
98940发布于 2019-02-14
来自专栏hadoop学习笔记
HanLP分词工具中的ViterbiSegment分词流程
另外请注意上边的3个类，所有ViterbiSegment的分词方法都集中在这3个类中。 2. （3）维特比选择最优路径对应方法为List<Vertex> viterbi(WordNet wordNet)，至此就得到了一个粗分的分词结果。需要注意HanLP的Viterbi分词只是用viterbi方法求解最优路径，并不是隐马。 3. （3）日本人名识别执行此步，配置变量japaneseNameRecognize必须为true。 3. 多线程分词 HanLP的ViterbiSegment分词器类是支持多线程的，线程数量由配置变量threadNumber决定的，该变量默认为1。
1.4K31发布于 2019-08-05
来自专栏全栈程序员必看
中文分词技术是什么_中文分词技术
二、中文分词技术的分类我们讨论的分词算法可分为三大类：基于字典、词库匹配的分词方法；基于词频度统计的分词方法和基于字标注的分词方法。其算法描述如下： (1)初始化当前位置计数器，置为0； (2)从当前计数器开始，取前2i个字符作为匹配字段，直到文档结束； (3)如果匹配字段长度不为0，则查找词典中与之等长的作匹配处理。 ①把匹配字段的最后一个字去掉； ②匹配字段长度减2；否则 ①把匹配字段的最后一个字节去掉； ②匹配字段长度减1； b)跳转至步骤3）；否则 a)如果匹配字段的最后一个字符为汉字字符，则当前位置计数器的值加当然，最大匹配算法是一种基于分词词典的机械分词法，不能根据文档上下文的语义特征来切分词语，对词典的依赖性较大，所以在实际使用时，难免会造成一些分词错误，为了提高系统分词的准确度，可以采用正向最大匹配法和逆向最大匹配法相结合的分词方案如果两种分词方法得到的匹配结果相同，则认为分词正确，否则，按最小集处理。 3). 全切分和基于词的频度统计的分词方法基于词的频度统计的分词方法是一种全切分方法。
2K20编辑于 2022-09-21

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Swift 3 分词

NLP（2）——中文分词分词的概念分词方法分类CRFHMM分词

结巴分词库_中文分词

Elasticsearch分词：Ansj分词器

Elasticsearch分词：内置分词器

用 TensorFlow_text(3) 构建 Rasa 中文分词 tokenizer

万字长文：解密 AI 时代的原子——Token 的分词、计费与隐私计算

分词 – Tokenization

Elasticsearch分词：自定义分词器

Elasticsearch分词：拼音分词器

Jieba分词

Python分词模块推荐：jieba中文分词

结巴分词器_分词器原理

Elasticsearch分词

HanLP 分词

elasticsearch 分词

SpringBoot结合Sa-token实现权限认证（3）

中文分词和二元分词综合对比

HanLP分词工具中的ViterbiSegment分词流程

中文分词技术是什么_中文分词技术

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐