搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏mathor
N-Gram
N-Gram（N元模型）是自然语言处理中一个非常重要的概念，通常在NLP中，人们基于一定的语料库，可以利用N-Gram来评估一个句子是否合理。本文将从此开始，进而向读者展示N-Gram在自然语言处理中的各种Powerful的应用基于N-Gram模型定义的字符串距离利用N-Gram模型评估语句是否合理使用N-Gram模型时的数据平滑算法设想如果有两个字符串，然后分别求它们的N-Gram，那么就可以从它们公有字串的数量这个角度去定义两个字符串间的N-Gram距离。当两个字符串完全相等的时候，它们之间的距离就是0 利用N-Gram模型评估语句是否合理从现在开始，我们所讨论的N-Gram模型跟前面所讲过的N-Gram模型从外在来看已经大不相同，但请注意它们内在的联系 N-Gram模型进行概率估计时，低元N-Gram模型通常可以提供有用的信息。
1.2K20发布于 2020-02-17
来自专栏机器学习养成记
NLP基础：N-Gram模型
由此产生了N-Gram模型。 N-Gram模型又称为n-1阶马尔可夫模型，指建立一个长度为n字节的窗口在文本上滑动，假定第n个词出现的概率只与前面n-1个词相关，与其他词不相关。因为当文本中有不同的词|V|个，则所有可能的N-Gram数就有|V|的n次方个。当n取的越小，在训练语料库中出现的次数越多，越具有可靠的统计信息。当n取1，2，3时，N-Gram分别称为uni-gram，bi-gran和tri-gram。常用的是bi-gran和tri-gram，n>=4时很少用。在实际应用中这样是不够合理的，因此要通过数据平滑实现所有N-Gram概率和为1，每个N-Gram概率不为0的目的。这里介绍一下最简单的方法——拉普拉斯平滑，这种方法的思想就是让每个N-Gram至少出现1次，所以相应概率公式变为： ?
1.5K20发布于 2021-04-09
来自专栏WD学习记录
n-gram
N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM, Chinese Language Model)。基于N-Gram模型定义的字符串距离利用N-Gram模型评估语句是否合理使用N-Gram模型时的数据平滑算法参考： N-Gram 自然语言处理中的N-Gram模型详解
79530发布于 2018-09-04
来自专栏InvQ的专栏
Elastic search N-gram tokenizer
N-gram tokenizer ngram 分词器，首先将text文本切分，执行时采用N-gram切割算法。 N-grams 算法，就像一个穿越单词的滑窗，是一个特定长度的持续的字符序列。
1.1K20发布于 2020-09-27
来自专栏ml
N-gram的简单的介绍
N-gram的计算方式 4. 评估N-gram的模型. 前言：　　　　N-gram是机器学习中NLP处理中的一个较为重要的语言模型，常用来做句子相似度比较，模糊查询，以及句子合理性，句子矫正等. 再系统的介绍N-gram前，我们先了解一下这几种概率. N-gram的计算方式：　　　　N-gram是依据一个预料库中，对于单词的统计，来计算. N-gram常见的有1-gram（一元模型），2-gram(二元模型) ,3-gram(三元模型); 　　　　在语义上只认为相近的几个词有关联 ,如果用韦恩图表示: 　　　　　　　3.1 对于一元模型（评估模型的优劣　　　　对于一个训练好的模型，我们需要评估模型的好坏，N-gram常用的评估方式是：　　　　　pp(w1,w2,...,Wn) = p(w1,w2,...
1.4K20发布于 2018-08-13
来自专栏AI机器学习与深度学习算法
通俗理解n-gram语言模型
本文主要介绍n-gram语言模型，如果想要了解语言模型的相关知识可以看《带你理解语言模型》。 image.png ? ▲n-gram语言模型汇总随着n的取值越大，n-gram模型在理论上越精确，但是也越复杂，需要的计算量和训练语料数据量也就越大，并且精度提升的不够明显，所以在实际的任务中很少使用n ≥ 4的语言模型。无论是原始的语言模型还是n-gram语言模型，都是使用极大似然估计法来估计概率值，通过统计频次来近似概率值，统计频次极有可能统计不到较长句子的频次。如果分子为0，估计的概率值为0，由于连乘的方式会导致最终计算出句子的概率值为0；如果分母为0，分母为0，计算的公式将没有任何意义；这被称为数据稀疏，对于n-gram语言模型来说，n越大，数据稀疏的问题越严重总结下基于统计的 n-gram 语言模型的优缺点：优点：采用极大似然估计，参数易训练；完全包含了前 n-1 个词的全部信息；可解释性强，直观易理解；缺点：缺乏长期依赖，只能建模到前 n-
3.4K40发布于 2020-07-20
N-gram模型python开发学习日志
N-gram模型通过条件概率链式规则来估计整个句子的概率。具体而言，对于给定的一个句子，模型会计算每个N-gram出现的条件概率，并将这些概率相乘以得到整个句子的概率。模型的参数空间会急剧增大，相同的N-gram序列出现的概率变得非常低，导致模型无法有效学习，模型泛化能力下降。此外，N-gram模型忽略了词之间的范围依赖关系，无法捕捉到句子中的复杂结构和语义信息。尽管存在局限性，N-gram模型由于其简单性和实用性，在许多 NLP 任务中仍然被广泛使用。在某些应用中，结合N-gram模型和其他技术（如深度学习模型）可以获得更好的性能。本开发案例实现了一个完整的N-gram模型系统，支持unigram、bigram和trigram三种模型。系统设计考虑了可扩展性，便于添加更高阶的N-gram模型。2. 存储：O(V^N)，其中V为词汇表大小，N为N-gram阶数前缀存储：O(V^(N-1))，其中V为词汇表大小，N为N-gram阶数10.
36900编辑于 2025-09-27
来自专栏算法channel
以实践的方式讨论：N-Gram原理与其应用
「Python与算法社区」第 306 篇原创 “N-Gram 模型介绍” 本文将以实践的方式讨论N-Gram原理与其应用，我对N-Gram的接触来源与一个文本分类的实验，发现在原有的分词基础上引入N-Gram 会提升分类准确率，因此在此讨论什么是N-Gram？ N-Gram常用的有三种：unigram,bigram,trigram 分别对应一元，二元，三元。这就是uningram, 分词的时候对应一个滑动窗口，窗口大小为1，所以每次只取一个值，同理假设使用bigram就会得到 [“我想”，“想去”，“去成”，“成都”，“都吃”，“吃火”，“火锅”], N-gram 一般情况下，N-Gram的N设置为1，2就够用了，但是如果语料够丰富的话，我觉得适当的增加N大小，可能会引入更多的语义信息。
2.2K10发布于 2019-10-16
N-gram内容搜索在威胁检测中的关键作用
为什么N-gram内容搜索是威胁检测的关键？ | TechTargetVirusTotal推出的企业版本通过N-gram内容搜索技术实现了更快速的恶意软件检测功能。本文将深入解析N-gram技术原理及其在威胁识别中的重要性。威胁识别及与防御者共享威胁信息的实践，是长期用于防御病毒和恶意软件的签名技术的延伸。企业版本引入的众多新功能之一是N-gram内容搜索。大多数企业使用VirusTotal来查看特定文件是否被任何反恶意软件引擎检测到。 N-gram内容搜索是指同时以特定顺序搜索一个或多个字符字符串，以确定文件是否与其他文件或恶意软件相关。
22010编辑于 2025-09-02
来自专栏机器学习入门与实战
fastText文本分类模型,n-gram词表示
2. n-gram表示单词 word2vec把语料库中的每个单词当成原子的，它会为每个单词生成一个向量。因为它们的n-gram可以和其它词共享。对于训练词库之外的单词，仍然可以构建它们的词向量。我们可以叠加它们的字符级n-gram向量。 **叠加构成这篇文档的所有词及n-gram的词向量，然后取平均。**叠加词向量背后的思想就是传统的词袋法，即将文档看成一个由词构成的集合。 **于是fastText的核心思想就是：将整篇文档的词及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类。使用词embedding而非词本身作为特征，这是fastText效果好的一个原因；另一个原因就是字符级n-gram特征的引入对分类效果会有一些提升。
3.4K10发布于 2019-11-21
来自专栏全栈程序员必看
自然语言处理中的N-Gram模型详解
N-Gram（有时也称为N元模型）是自然语言处理中一个非常重要的概念，通常在NLP中，人们基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面，N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。本文将从此开始，进而向读者展示N-Gram在自然语言处理中的各种powerful的应用。基于N-Gram模型定义的字符串距离利用N-Gram模型评估语句是否合理使用N-Gram模型时的数据平滑算法欢迎关注白马负金羁的博客 http://blog.csdn.net/baimafujinji 基于N-Gram模型定义的字符串距离在自然语言处理时，最常用也最基础的一个操作是就是“模式匹配”，或者称为“字符串查找”。而模式匹配（字符串查找）又分为精确匹配和模糊匹配两种。
93920编辑于 2022-09-10
来自专栏算法channel
从 n-gram 到 RNN 做的那些优化改进
一个 n-gram 组是指 n 个连续的单词片断，常见的有： unigrams 是指一个单词为一组，'the', 'students', 'opened', 'their'；bigrams 是指两个单词为一组 n-gram 定义下的语言模型，简称为 n-gram 语言模型。假设第 t+1 个单词wt+1 依赖于前 n-1 个单词。 n-gram 下前 n-1 个单词下一个单词为 laptops 的概率高于 books. n-gram 语言模型预测比较直观，但是，它有明显的弱点。如果语料库中没有出现 n-1 个单词片，分母为 0；如果没有出现 n-1个单词和 wt+1的组合，分子为 0；需要加载 O(e^n) 量级的 n-gram 到内存，单词数和 n-gram 数为指数关系这个三层神经网络解决了 n-gram 模型的稀疏问题和存储问题。但是它每一个输入片段的长度为固定的，并且每一个 n-gram 输入的权重 w 非共享。
1.8K40发布于 2018-06-04
来自专栏曲奇的博客
【机器学习每日一问02】N-gram模型
N-gram是一个语言模型（Language Model，LM），语言模型是一个基于概率的判别模型，它的输入是一句话（单词的顺序序列），输出是这句话的概率，即这些单词的联合概率（joint probability ） N-gram本身也指一个由N个单词组成的集合，各单词具有先后顺序，且不要求单词之间互不相同。
36420编辑于 2021-12-14
来自专栏Reinvent Data Science
「X」Embedding in NLP｜Token 和 N-Gram、Bag-of-Words 模型释义
Token 和 N-gram 在 C/C++ 的入门计算机科学课程中，通常很早就会教授字符串的概念。 n-gram 的概念不必局限于单个字符——它们也可以扩展到单词。 N-gram 模型接下来，我们可以将注意力转向 N-gram 模型。简单来说，N-gram 模型是一种简单的概率语言模型，它输出一个特定 Token 在现有 Token 串之后出现的概率。对于 N-gram 模型，这些模型总是通过查看输入文档语料库中的双词组的数量来计算，但在其他语言模型中，它们可以手动设置或从机器学习模型的输出中获取。词袋模型除了 N-gram，另一个值得讨论的是词袋模型（BoW）。
45210编辑于 2023-12-05
来自专栏NLP/KG
人工智能自然语言处理：N-gram和TF-IDF模型详解
人工智能自然语言处理：N-gram和TF-IDF模型详解 1.N-gram 模型 N-Gram 是一种基于统计语言模型的算法。需要注意的是，通常 n-gram 即表示词序列，也表示预测这个词序列概率的模型。 1.2 N-gram 模型优缺点总结下基于统计的 n-gram 语言模型的优缺点：优点：采用极大似然估计，参数易训练；完全包含了前 n-1 个词的全部信息；可解释性强，直观易理解；缺点： 3.关键知识点总结：在N-gram模型中，N表示表示每次取出的单词数量在N-gram模型中，当N取值越大，模型的效果会不一定变得更好（要合适） N-gram模型可以用于文本分类、语音识别和机器翻译等自然语言处理任务 N-gram模型的主要优点是可以捕捉上下文信息，但缺点是无法处理未知的单词。
1.3K00编辑于 2023-07-16
来自专栏机器之心
引入N-gram改进Transformer架构，ACL匿名论文超越Primer等基准
机器之心报道编辑：陈萍、杜伟在提交给 ACL 的一篇匿名论文中，研究者用潜在 n-gram 来增强 Transformer。具体地，N-grammer 层通过在训练期间将潜在 n-gram 表示合并到模型中来提高语言模型的效率。一般来说，N-grammer 层对于任意 N-gram 来说已经足够了，该研究仅限于使用 bi-gram，以后将会研究高阶 n-gram。其中，该研究使用 Adam 优化器，所有模型的学习率为 10^-3，而对于 n-gram 嵌入表，学习率为 10^-2。该研究还测试了一个简单版本的 N-grammer，研究者直接从 uni-gram 词汇表（3.3 节中的）而不是从潜在表示中计算 n-gram（3.1 节的）。
51510编辑于 2023-03-29
来自专栏AI科技大本营的专栏
DLM：微信大规模分布式n-gram语言模型系统
n-gram是一种简单且非常有效的语言模型。它基于对序列n-gram的统计（例如频率）来估计单词序列的概率。n-gram是n个单词的子序列。使用n-gram语言模型的一个重要问题是其存储成本高。首先为了准确性，n-gram中的n越大越好。其次，较大的n-gram集合包括更多的n-gram（会有更好的覆盖），因此对相对不常见的n-gram序列也能给出更好的概率估计。如此可以消除了低阶n-gram的通信成本。其次，我们提出适合n-gram检索的两级分布式索引。全局索引将相关n-gram概率的统计信息分发到远端同一节点。一般的想法是将一些概率质量从频率高的n-gram转移一部分到，频率低的n-gram，并基于后缀来估计它们的概率。回退平滑模型：在方程8中表示（频繁）n-gram的折扣概率。
1.8K20发布于 2019-09-12
来自专栏拓端tecdat
R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究
N-gram分析 Usenet数据集是一个现代文本语料库，因此我们会对本文中的情绪分析感兴趣.
25220编辑于 2023-08-31
来自专栏决策智能与机器学习
N-Gram模型 vs. RNN | 语言模型之战 | 老炮儿聊机器语音 | 3th
小结递归神经网络语言模型的一大优点在于克服了N-Gram语言模型因为依赖马尔科夫假设而存在的局限性，事实上，递归神经网络语言模型可以处理任意长度的序列，该模型可以将过去的历史信息编码在隐藏层
71630发布于 2020-08-04
来自专栏拓端tecdat
R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究|附代码数据
N-gram分析 Usenet数据集是一个现代文本语料库，因此我们会对本文中的情绪分析感兴趣. ---- 获取全文完整代码数据资料。本文选自《R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究》
37420编辑于 2023-07-24

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

N-Gram

NLP基础：N-Gram模型

n-gram

Elastic search N-gram tokenizer

N-gram的简单的介绍

通俗理解n-gram语言模型

N-gram模型python开发学习日志

以实践的方式讨论：N-Gram原理与其应用

N-gram内容搜索在威胁检测中的关键作用

fastText文本分类模型,n-gram词表示

自然语言处理中的N-Gram模型详解

从 n-gram 到 RNN 做的那些优化改进

【机器学习每日一问02】N-gram模型

「X」Embedding in NLP｜Token 和 N-Gram、Bag-of-Words 模型释义

人工智能自然语言处理：N-gram和TF-IDF模型详解

引入N-gram改进Transformer架构，ACL匿名论文超越Primer等基准

DLM：微信大规模分布式n-gram语言模型系统

R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究

N-Gram模型 vs. RNN | 语言模型之战 | 老炮儿聊机器语音 | 3th

R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究|附代码数据

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐