首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI研习社

    如何用 seq2seq 模型来应对 NLP 任务

    本文为 AI 研习社编译的技术博客,原标题 : Solving NLP task using Sequence2Sequence model: from Zero to Hero 作者 | Dima Shulga 翻译 | 邓普斯•杰弗、Zedom0 编辑 | 王立鱼 原文链接: https://towardsdatascience.com/solving-nlp-task-using-sequence2sequence-model-from-zero-to-hero-c193c1bd03d1 今天我想要解决一个非常流行的NLP任务,它叫做命名实体识别(NER)。简单来说,NER是从单词序列(一个句子)中抽取命名实体的任务。 用Keras构建一个 序列到序列(Seq2Seq)的模型。 找到如何正确衡量与比较结果的方法。 在Seq2Seq模型中使用Glove预训练的词嵌入(embedding)。 之后我会谈到更好的衡量命名实体识别的方法,但首先,构建我们的 "序列到序列"(Seq2Seq)模型吧。 序列到序列模型 前面的方法的一个主要缺点在于我们丢失了词之间的依赖信息。

    73620发布于 2019-06-14
  • NLP模型基础(一)

    自然语言处理致力于理解和生成自然语言,其中的词表示和语言模型是构建NLP的两大基础。本文系统介绍词表示方法(从离散符号到分布式向量)和语言模型(从统计方法到神经网络),为后续NLP模型打下基础。 这里先讲解一部分NLP模型基础,还有一部分会留到后两期,当然你也可以直接搜索关键字定位到你想要搜索的部分。本篇文章的篇幅可能会有点长,可以先点赞收藏,方便下次阅读。 举个栗子:这里有三个词,我们给这三个词分配ID苹果 → 1香蕉 → 2橙子 → 3这里总共有三个词,独立符号分别为1,2,3。因为有3个词所以这里就会采用3维向量,一般有几个词就用几维向量。 2. 什么是SVD?SVD其实就是一个数学的工具,能帮助我们把表格拆成三个部分。这里举个例子,比如这里有一个比较大的蛋糕,这里将这个大蛋糕切成三块蛋糕,每一块蛋糕都能直接表达出一些比较重要的信息。 2.LSI(潜在语义索引)、pLSA(概率潜在语义分析)和LDA(潜在狄利克雷分配)等算法基于SVD。3.这些算法通过分解矩阵得到每个词的低维稠密向量表示。

    34220编辑于 2025-07-04
  • 来自专栏素质云笔记

    NLP+2vec︱认识多种多样的2vec向量化模型

    1、word2vec 耳熟能详的NLP向量化模型。 Python: https://radimrehurek.com/gensim/models/doc2vec.html word2vec模型对词向量进行平均处理,我们仍然忽略了单词之间的排列顺序对情感分析的影响 和 Word2Vec 一样,该模型也存在两种方法:Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)。 (参考:Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型 ) 3、tweet2vec Paper: https://arxiv.org/abs/1605.03481 -57135994 Python: https://github.com/cemoody/lda2vec 将LDA与word2vec相结合,LDA是我比较在意的研究方向,这个模型很早提出,不过应用地倒是不多

    2.3K70发布于 2018-01-15
  • 来自专栏红色石头的机器学习之路

    Coursera吴恩达《序列模型》课程笔记(2)-- NLP & Word Embeddings

    NLP中,我们更希望能掌握不同单词之间的相似程度。 因此,我们可以使用特征表征(Featurized representation)的方法对每个单词进行编码。 featurized representation的特性使得很多NLP任务能方便地进行迁移学习。方法是: 从海量词汇库中学习word embeddings,即所有单词的特征向量。 Word2Vec 上一小节我们介绍了context和target的选择方法,比较流行的是采用Skip-Gram模型。 Skip-Gram模型是Word2Vec的一种,Word2Vec的另外一种模型是CBOW(Continuous Bag of Words)。关于CBOW此处不再赘述。 7. 使用优化算法得到所有参数之后,最终的ewewe_w可表示为: ew=ew+θw2ew=ew+θw2 e_w=\frac{e_w+\theta_w}{2} 最后提一点的是,无论使用Skip-Gram模型还是

    97010发布于 2019-05-25
  • 来自专栏有三AI

    NLP】ALBERT:更轻更快的NLP预训练模型

    目前在NLP领域,出彩的预训练模型的新工作,几乎都是基于BERT的改进,前面我们就介绍了XLNET。今天我来介绍一个更新的工作,相比于BERT,它更轻量,效果也要好。 作者&编辑 | 小Dream哥 1 预训练模型进展 2018年底,BERT横空出世之后,预训练模型开始走进NLP舞台的中央,吸引了业内所有人的关注。 之后,各种预训练模型开始不断的刷新NLP领域的SOTA榜单,比较有影响力的包括,GPT-2.0,XLNET,RoBERTa等。 2 ALBERT的改进点 ALBERT为了减少模型参数主要有以下几点: 1.词嵌入参数因式分解; 2.隐藏层间参数共享 此外,为了提升模型性能,ALBERT提出了一种新的训练任务: 句子间顺序预测 下面我们详细介绍以下这几个改进点 这是NLP领域第一次发现dropout对大规模的预训练模型会造成负面影响。 此外,ALBERT还有一个albert_tiny模型,其隐藏层仅有4层,模型参数量约为1.8M,非常的轻便。

    1.5K10发布于 2019-11-06
  • 来自专栏代码工具

    Tensorflow2 模型优化环境快速搭建

    no-check-certificatebash Anaconda3-2020.07-Linux-x86_64.shsource ~/.bashrc# 检查是否安装成功, 需要看配置有没有写到环境变量里conda -V# “tf2” 是你建立的conda虚拟环境的名字conda create --name tf2 python=3.7 # 进入名为“tf2”的conda虚拟环境conda activate tf2 2. = tf.constant([[5, 6], [7, 8]])C = tf.matmul(A, B)print(C)Output:tf.Tensor([[19 22][43 50]], shape=(2, 2), dtype=int32)3. 使用Netron可视化模型h5文件首先下载并安装 https://netron.app/, 然后打开模型里面的h5文件就行了图片

    63230编辑于 2022-06-30
  • 来自专栏全栈程序员必看

    python分类模型_nlp模型评估指标

    目录 必看前言 分类模型的评估指标 1 样本不均匀问题 2 混淆矩阵 2.1 模型整体效果:准确率 2.2 精确度 Precision 2.3 召回率 Recall 2.4 F1 measure 但这些采样方法会增加样本的总数,对于决策树这个样本总是对计算速度影响巨大的算法来说,我们完全不想轻易地增加样本数量,所以我们要寻求另一条路:改进我们的模型评估指标,使用更加针对于少数类的指标来优化模型。 所以当样本不均衡的时候,我们可以使用形如 {“标签的值 1”:权重 1,“标签的值 2”:权重 2} 的字典来输入真实的样本标签比例,来让算法意识到样本是不平衡的。或者使用”balanced“模式。 如果样本是加权的,则使用基于权重的预修剪标准来更容易优化树结构,这确保叶节点至少包含样本权重的总和的一小部分。 2 混淆矩阵 从上面内容可以看出,如果我们的目标是希望尽量捕获少数类,那准确率这个模型评估逐渐失效,所以我们需要新的模型评估指标来帮助我们。

    1.1K10编辑于 2022-11-08
  • 来自专栏红色石头的机器学习之路

    吴恩达《序列模型》精炼笔记(2)-- NLP和Word Embeddings

    NLP中,我们更希望能掌握不同单词之间的相似程度。 因此,我们可以使用特征表征(Featurized representation)的方法对每个单词进行编码。 6 Word2Vec 上一小节我们介绍了context和target的选择方法,比较流行的是采用Skip-Gram模型。 训练的过程是构建自然语言模型,经过softmax单元的输出为: 相应的loss function为: 然后,运用梯度下降算法,迭代优化,最终得到embedding matrix E。 Skip-Gram模型是Word2Vec的一种,Word2Vec的另外一种模型是CBOW(Continuous Bag of Words)。关于CBOW此处不再赘述。 使用优化算法得到所有参数之后,最终的ew可表示为: 最后提一点的是,无论使用Skip-Gram模型还是GloVe模型等等,计算得到的embedding matrix E的每一个特征值不一定对应有实际物理意义的特征值

    50630编辑于 2022-01-12
  • 来自专栏AI小白入门

    NLP】加速BERT:从架构优化模型压缩到模型蒸馏最新进展详解

    目前,BERT 已经成为 NLP 深度学习管道中的重要组成部分。 但 BERT 并不是完美无瑕的,它最大的问题就是:太大。 当然也可以采用其他优化,例如从学习率和策略、预热步数,较大的批处理大小等; 模型压缩:通常使用量化和修剪来完成,从而能够在架构不变(或者大部分架构不变)的情况下减少计算总量; 模型蒸馏:训练一个较小的模型 虽然最初的 BERT 已经使用了多台机器进行训练,但还有更多针对 BERT 分布式训练的优化解决方案,例如阿里巴巴 [1] 和英伟达 [2] 的一些工作。 ? 2、量化和修剪 ? 量化 会降低模型权重的数值精度。 于是模型尺寸将随之减小 2 倍、4 倍、8 倍或 32 倍。这称为 post-training quantization。 另一个选项是量化感知训练(也是较为困难和较为不成熟的)。

    1.3K20发布于 2019-11-14
  • 来自专栏机器学习养成记

    NLP基础:NNLM模型介绍

    导读:在NLP中,语言模型用来判断一句话是否是正常人说的,广泛应用于信息检索、机器翻译、语音识别等重要任务中。 传统的语言模型主要基于统计方法(如:NLP基础:N-Gram模型),虽然可解释性强、易于理解,但存在泛化能力差等问题。随着深度学习技术的发展,相关技术也应用到语言模型中,如NNLM模型2 模型训练目标及参数 模型参数: 一般来讲,神经网络的输入不需要训练,但是在NNLM模型中,神经网络的输入是词向量x,也是需要训练的参数。 一般是50-100维,大大降低了数据维度,且越相近的词距离越近,这也使得使用词嵌入的模型自带平滑功能。在训练语言模型的同时可以训练得到词向量。 __biz=MzI2MDU3OTgyOQ==&mid=2247491908&idx=1&sn=5d056222580e9a365f87bb697f73c550&chksm=ea6529dedd12a0c8d4ced252c3f5bbfd90a82428aee2a5103fb0a136e729af459f4638aee761&

    1.6K30编辑于 2022-08-31
  • 来自专栏我的充电站

    NLP笔记:fastText模型考察

    1. fastText模型原理 fastText大约是NLP文本分类任务中最简单最直观的模型架构之一了,其原始文献详见参考链接2,facebook也提供了相应的开源工具,可以相当便利地用来训练一些nlp 分类模型2. facebook的fastText模块使用 facebook的fasttext开源项目的GitHub仓库链接详见下述参考链接1。 0.48 0.85 0.61 5022 __label__10 0.45 0.77 0.57 4999 __label__2 https://github.com/facebookresearch/fastText https://arxiv.org/abs/1607.01759 fastText原理和文本分类实战,看这一篇就够了 NLP

    1.1K30发布于 2021-03-26
  • 来自专栏机器学习初学者精选文章

    NLP】预训练模型综述

    (Neutral Language Processing,NLP)世界格局的文章,包括 BERT[1]、GPT2[2] 等,PLMs 技术逐渐发展成为了 NLP 领域不可或缺的主流技术。 它证明了在大量无监督数据上预训练模型,并在少量有监督数据上微调模型这个思路对 Seq2Seq 模型同样具有效性,并提出了 Seq2Seq 目标和语言模型目标联合训练以提高泛化能力的想法。 (右)对不同任务进行微调 之后 GPT2 的出现改进了 GPT 的几点不足, GPT2 希望能够使模型不经过任何改变就可以在下游任务上获得比较好的性能,这就使得 GPT2 的语言模型是通用的,不需要根据下游任务的不同微调其模型 ALBERT 提出了两个参数优化策略以减少内存消耗并加速训练。此外,ALBERT 还对 BERT 的 NSP 任务进行了改进[19]。 因此,一个更加务实的方向是在现有的软硬件基础上,设计出更高效的模型结构、自监督预训练任务、优化器和训练技巧等。

    2.4K12发布于 2020-05-26
  • 来自专栏潇涧技术专栏

    Head First Stanford NLP (2)

    (深入浅出Stanford NLP 进阶篇) 本文接着介绍Stanford NLP工具的使用方法。 ,默认在stanford-corenlp-models.jar中的edu.stanford.models.lexparser目录下有个英语的模型文件englishPCFG.ser.gz。 如果导入了其他语言的model jar的话,也可以在jar相应目录下看到其他的模型文件,例如汉语的chineseFactored.ser.gz、chinesePCFG.ser.gz等。 (2)parse.maxlen: if set, the annotator parses only sentences shorter (in terms of number of tokens) than Models for this parser are linked below. 2 DependencyParseAnnotator (depparse) 2.1 关于DependencyParseAnnotator

    1.2K10发布于 2018-08-01
  • 《机器学习》 第 2 章 - 模型估计与优化

    今天给大家分享《机器学习》第 2 章的核心内容 —— 模型估计与优化。 这一章是机器学习算法落地的核心基础,不管是经典的线性回归,还是复杂的深度学习模型,背后都离不开参数估计和优化方法的支撑。          2.2 模型优化基本方法 2.2.1 梯度下降法 核心思想 完整代码 + 可视化对比 import numpy as np import matplotlib.pyplot as plt plt.rcParams 2.3 模型优化概率方法 2.3.1 随机梯度法 核心思想         随机梯度下降(SGD):不再用全部数据计算梯度,而是每次随机选一个 / 一批样本计算梯度,解决大数据场景下梯度下降速度慢的问题 降低多项式次数,减少过拟合和优化难度 scaler = StandardScaler() # 1.

    18630编辑于 2026-01-21
  • 来自专栏腾讯云TI平台

    【技术分享】Detectron模型性能优化与部署(2

    在Detectron模型性能优化与部署(1)中,我们介绍了如何使用Caffe2/TRT加速Cascade R-CNN + FPN模型。 下图显示了对Cascade R-CNN + FPN网络中其中一个TensorRT算子第一维动态调节的设置: 2.png 在Caffe2/TRT的优化实现中,用户可以根据模型参数,模型的配置和不同输入大小对 Pytorch在Centos编译 Caffe2/TRT模块的优化实现,近期会在深度学习框架加速Oteam服务端模型推理加速小组维护的repo开源。 总结 本文总结了某业务Cascade R-CNN + FPN模型在腾讯云AI基础中心的推理优化过程。不仅实现了模型推理本身160%的性能提升,也很好的完善了Caffe2/TRT模块。 优化后的Caffe2/TRT模块支持动态大小输入,支持FP16推理,支持复杂模型的推理等。

    2.1K20编辑于 2021-12-22
  • 来自专栏数据科学(冷冻工厂)

    PyTorch 模型性能分析和优化 - 第 2 部分

    这是有关分析和优化在 GPU 上运行的 PyTorch 模型主题的系列文章的第二部分。 在第一篇文章中,我们演示了使用 PyTorch Profiler 和 TensorBoard 迭代分析和优化 PyTorch 模型的过程以及巨大潜力。 这使得构建、分析和调试 ML 模型变得更加容易。另一方面,它也使我们的模型更容易(有时是意外地)插入次优代码块。正如我们将演示的,了解如何识别和修复此类代码块会对模型的速度产生重大影响。 优化2:从训练步骤中删除冗余的 GPU 到主机副本 虽然验证输入标签的合法性可能是有必要的,但其方式应该不会对我们的训练性能产生如此负面的影响。 往期推荐 如何在 Ubuntu 中安装最新的 Python 版本 PyTorch模型性能分析与优化 10 本免费的 Linux 书籍 实践|Linux 中查找和删除重复文件 Reference

    94720编辑于 2023-09-06
  • 来自专栏自然语言处理(NLP)论文速递

    卡内基梅隆 && 清华 | Prompt2Model:利用大模型Prompt,实现专有NLP模型生成!

    然而,相比传统的专用NLP模型,大型语言模型仍然存在计算资源紧张等问题。为此,本文提出了Prompt2Model平台架构,采用自然语言描述任务,并用它来「训练有利于部署的专用模型」。 任务,从头开始构建NLP模型是一项特别艰难的任务。 NLP研究人员一般都需要做以下几个步骤:定义NLP任务的工作范围、查询或标注目标NLP模型的数据、选择合适模型架构、训练模型参数、调节模型参数、通过验证集评估系统性能、实现NLP模型的部署。   2.如何为数据集建立索引以进行搜索? 3.用户的任务需要哪些数据集列,哪些列应该被忽略? 「数据集生成器」 并非所有的NLP任务都会存在标注数据集。 实验结果  对涵盖传统NLP基准和新颖应用程序的三个任务进行评估,Prompt2Model可以使用自然语言指令生成高质量的数据集和小型模型,这些模型「在特定任务上的性能优于大型语言模型」。

    65220编辑于 2023-09-02
  • 来自专栏有三AI

    NLPNLP中应用最广泛的特征抽取模型-LSTM

    本篇介绍在NLP中应用最为广泛的特征抽取模型LSTM。详细介绍LSTM提出的由来及其模型结构,并由此分析了LSTM能够解决RNN不能够对长序列进行处理和训练的原因。 因此两位大神针对这个问题,设计新的模型结构,下面介绍LSTM的模型结构。 2 LSTM的结构 现在网络上讲LSTM结构的文章,实在是太多了,小Dream哥本来是不想再讲的。 不出意外,transformer将会取代RNN及其衍生(LSTM GRU)模型,成为NLP中,最受欢迎、最为强大的特征抽取模型。 (2) 知识图谱。知识图谱对于NLP各项任务效果好坏的重要性,就好比基础知识对于一个学生成绩好坏的重要性。 【NLP】用于语音识别、分词的隐马尔科夫模型HMM 【NLP】用于序列标注问题的条件随机场(Conditional Random Field, CRF) 【NLP】经典分类模型朴素贝叶斯解读 【NLP

    2.5K10发布于 2019-07-26
  • 来自专栏云时之间

    NLP入门之语音模型原理

    这一篇文章其实是参考了很多篇文章之后写出的一篇对于语言模型的一篇科普文,目的是希望大家可以对于语言模型有着更好地理解,从而在接下来的NLP学习中可以更顺利的学习. 1:传统的语音识别方法: 这里我们讲解一下是如何将声音变成文字 2:端到端的模型 现阶段深度学习在模式识别领域取得了飞速的发展,特别是在语音和图像的领域,因为深度学习的特性,在语音识别领域中,基于深度学习的声学模型现如今已经取代了传统的混合高斯模型GMM对于状态的输出进行建模 基于深度学习的声学模型训练过程必须是由传统的混合高斯模型开始的,然后对训练数据集合进行强制的对齐,然后进行切分得到不同的声学特征,其实传统的方式并不利于对于整句话的全局优化,并且这个方法也需要额外的语音学和语言学的知识 随着神经网络优化技术的发展和GPU计算能力的不断提升,最终使用RNN和CTC来进行建模实现了end-to-end语音识别的声学模型。 在end-to-end的声学模型中,可以没有词典,没有OOV,也没有G2P。这些全都被建模在一个神经网络中。另外,在传统的框架结构中,语音需要分帧,加窗,提取特征,包括MFCC、PLP等等。

    1.8K120发布于 2018-04-11
  • 来自专栏自然语言处理(NLP)论文速递

    (含源码)「自然语言处理(NLP)」社区问答评估&&各种Bert模型优化对比

    通过均值平方误差(Mean-Squared-Error, MSE)评估,模型经过2个epoch的训练后达到了0.046的值。 pdf Code: https://github.com/tensorflow/models/tree/master/official/nlp 论文简述: 本文引入了一种新的语言表示模型BERT,它是transformer 通过(1)使用降噪功能任意破坏文本,以及(2)学习模型以重建原始文本来训练BART。 论文简述: 迁移学习在自然语言处理(NLP)中是一种强大的技术,该模型首先要针对数据丰富的任务进行预训练,然后再针对下游任务进行微调。 为了促进NLP迁移学习的未来工作,我们发布了数据集,预训练的模型和代码。 ?

    79530发布于 2020-07-31
领券