首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏SimpleAI

    Huggingface🤗NLP笔记7:使用Trainer API来微调模型

    「HuggingfaceNLP笔记系列-第7集」 最近跟着Huggingface上的NLP tutorial走了一遍,惊叹居然有如此好的讲解Transformers系列的NLP教程,于是决定记录一下学习的过程 下载本地可直接运行):https://github.com/beyondguo/Learn_PyTorch/tree/master/HuggingfaceNLP ---- 使用Trainer API来微调模型 数据集准备和预处理: 这部分就是回顾上一集的内容: 通过dataset包加载数据集 加载预训练模型和tokenizer 定义Dataset.map要使用的预处理函数 定义DataCollator来用于构造训练 默认情况下,Trainer和TrainingArguments会使用: batch size=8 epochs = 3 AdamW优化器 定义好之后,直接使用.train()来启动训练: trainer.train :Pipeline端到端的背后发生了什么 HuggingfaceNLP笔记2:一文看清Transformer大家族的三股势力 HuggingfaceNLP笔记1:直接使用pipeline,是个人就能玩NLP

    9.2K31发布于 2021-10-08
  • 来自专栏NewBeeNLP

    NLP简报(Issue#7

    你可以访问AraBERT模型[7]以及对应的[AraBERT论文(https://arxiv.org/abs/2003.00104); 最近还发布了日语BERT[8]以及波兰语BERTPolbert[9 3.5 Med7 Andrey Kormilitzin发布了Med7[19] ,这是一种用于在电子健康记录上执行临床NLP(特别是命名实体识别(NER)任务)的模型。 5.3 TensorFlow 2.0免费课程 在TensorFlow 2.0上查看此〜7小时免费课程[33] ,其中包含从基本神经网络到NLP到强化学习的介绍。 Simulate Complex Physics with Graph Networks: https://arxiv.org/abs/2002.09405 [7] AraBERT模型: https: v=QWu7j1nb_jI&feature=emb_logo [40] ELECTRA: 超越BERT, 19年最佳NLP预训练模型: https://zhuanlan.zhihu.com/p/89763176

    1.1K10发布于 2020-08-26
  • 来自专栏ShowMeAI研究中心

    NLP教程(7) - 问答系统

    [NLP中的问答系统] ShowMeAI为CS224n课程的全部课件,做了中文翻译和注释,并制作成了 GIF动图!点击 第10讲-NLP中的问答系统 查看的课件注释与带学解读。 主要针对NLP中的问答系统场景,介绍了一些模型和思路。 因此,很自然地,我们想设计一个可以用于一般 QA 的模型。 为了实现这一目标,我们面临两大障碍。 [动态内存网络图示] (本部分DMN网络频繁使用到GRU结构,具体的GRU细节讲解可以查看ShowMeAI的对吴恩达老师课程的总结文章深度学习教程 | 序列模型与RNN网络,也可以查看本系列的前序文章NLP 它也能够在这项任务中胜过其他模型。 1.6 总结 自2015年以来,寻找能够解决所有问题的通用体系结构的热情略有减退,但在一个领域进行训练并推广到其他领域的愿望有所增强。

    1.2K21编辑于 2022-05-11
  • NLP模型基础(一)

    自然语言处理致力于理解和生成自然语言,其中的词表示和语言模型是构建NLP的两大基础。本文系统介绍词表示方法(从离散符号到分布式向量)和语言模型(从统计方法到神经网络),为后续NLP模型打下基础。 这里先讲解一部分NLP模型基础,还有一部分会留到后两期,当然你也可以直接搜索关键字定位到你想要搜索的部分。本篇文章的篇幅可能会有点长,可以先点赞收藏,方便下次阅读。

    34220编辑于 2025-07-04
  • 来自专栏有三AI

    NLP】ALBERT:更轻更快的NLP预训练模型

    目前在NLP领域,出彩的预训练模型的新工作,几乎都是基于BERT的改进,前面我们就介绍了XLNET。今天我来介绍一个更新的工作,相比于BERT,它更轻量,效果也要好。 作者&编辑 | 小Dream哥 1 预训练模型进展 2018年底,BERT横空出世之后,预训练模型开始走进NLP舞台的中央,吸引了业内所有人的关注。 之后,各种预训练模型开始不断的刷新NLP领域的SOTA榜单,比较有影响力的包括,GPT-2.0,XLNET,RoBERTa等。 大体来说,上述预训练模型确实都基于BERT了做了一些改进,在模型结构、训练模式等方面都有一些创新。但是大部分的预训练模型也有一个共通的“特点”,即模型相对“笨重”,预训练成本高。 这是NLP领域第一次发现dropout对大规模的预训练模型会造成负面影响。 此外,ALBERT还有一个albert_tiny模型,其隐藏层仅有4层,模型参数量约为1.8M,非常的轻便。

    1.5K10发布于 2019-11-06
  • 来自专栏全栈程序员必看

    python分类模型_nlp模型评估指标

    如果我们希望捕获少数类,模型就会失败。 其次,模型评估指标会失去意义。 但这些采样方法会增加样本的总数,对于决策树这个样本总是对计算速度影响巨大的算法来说,我们完全不想轻易地增加样本数量,所以我们要寻求另一条路:改进我们的模型评估指标,使用更加针对于少数类的指标来优化模型。 如果样本是加权的,则使用基于权重的预修剪标准来更容易优化树结构,这确保叶节点至少包含样本权重的总和的一小部分。 2 混淆矩阵 从上面内容可以看出,如果我们的目标是希望尽量捕获少数类,那准确率这个模型评估逐渐失效,所以我们需要新的模型评估指标来帮助我们。 如果一个模型在能够尽量捕获少数类的情况下,还能够尽量对多数类判断正确,则这个模型就非常优秀了。为了评估这样的能力,我们将引入新的模型评估指标:混淆矩阵来帮助我们。

    1.1K10编辑于 2022-11-08
  • 来自专栏AI小白入门

    NLP】加速BERT:从架构优化模型压缩到模型蒸馏最新进展详解

    Camel 编辑 | 唐里 原文标题:Speeding up BERT 原文链接:https://blog.inten.to/speeding-up-bert-5528e18bb4ea BERT 在 NLP 目前,BERT 已经成为 NLP 深度学习管道中的重要组成部分。 但 BERT 并不是完美无瑕的,它最大的问题就是:太大。 当然也可以采用其他优化,例如从学习率和策略、预热步数,较大的批处理大小等; 模型压缩:通常使用量化和修剪来完成,从而能够在架构不变(或者大部分架构不变)的情况下减少计算总量; 模型蒸馏:训练一个较小的模型 该方法能够将 BERT-base 模型压缩 60 倍以上,而下游任务指标只有很小的下降,从而使得语言模型占用的空间只有不到 7MB。 ? ? TinyBERT 的结果似乎更好,但一个 7MB 的类 BERT 模型简直爽的不能再爽!

    1.3K20发布于 2019-11-14
  • 来自专栏机器学习养成记

    NLP基础:NNLM模型介绍

    导读:在NLP中,语言模型用来判断一句话是否是正常人说的,广泛应用于信息检索、机器翻译、语音识别等重要任务中。 传统的语言模型主要基于统计方法(如:NLP基础:N-Gram模型),虽然可解释性强、易于理解,但存在泛化能力差等问题。随着深度学习技术的发展,相关技术也应用到语言模型中,如NNLM模型模型输出:输出层结果经过softmax,得到归一化后的概率结果。 2 模型训练目标及参数 模型参数: 一般来讲,神经网络的输入不需要训练,但是在NNLM模型中,神经网络的输入是词向量x,也是需要训练的参数。 一般是50-100维,大大降低了数据维度,且越相近的词距离越近,这也使得使用词嵌入的模型自带平滑功能。在训练语言模型的同时可以训练得到词向量。

    1.6K30编辑于 2022-08-31
  • 来自专栏我的充电站

    NLP笔记:fastText模型考察

    1. fastText模型原理 fastText大约是NLP文本分类任务中最简单最直观的模型架构之一了,其原始文献详见参考链接2,facebook也提供了相应的开源工具,可以相当便利地用来训练一些nlp 0.67 0.00 0.00 2541 __label__4 0.28 0.39 0.33 2635 __label__7 0.24 0.24 0.24 2850 6 0.22 0.11 0.15 2344 7 0.00 0.00 0.00 2850 6 0.00 0.00 0.00 2344 7 https://github.com/facebookresearch/fastText https://arxiv.org/abs/1607.01759 fastText原理和文本分类实战,看这一篇就够了 NLP

    1.1K30发布于 2021-03-26
  • 来自专栏机器学习初学者精选文章

    NLP】预训练模型综述

    随后,Ramachandran et al.[7] 拓展了上述方法,提出了利用预训练的方法可以提高序列到序列(Sequence to sequence,Seq2Seq)模型 [8] 的准确性。 ALBERT 提出了两个参数优化策略以减少内存消耗并加速训练。此外,ALBERT 还对 BERT 的 NSP 任务进行了改进[19]。 目前 NLP 中的 SOTA 也可通过加深模型层数来更进一步提升,这将导致更加高昂的训练成本。 因此,一个更加务实的方向是在现有的软硬件基础上,设计出更高效的模型结构、自监督预训练任务、优化器和训练技巧等。 Syst., vol. 2015-Janua, pp. 3079–3087, 2015. [7] P. Ramachandran, P. J. Liu, and Q.

    2.4K12发布于 2020-05-26
  • 来自专栏有三AI

    NLPNLP中应用最广泛的特征抽取模型-LSTM

    本篇介绍在NLP中应用最为广泛的特征抽取模型LSTM。详细介绍LSTM提出的由来及其模型结构,并由此分析了LSTM能够解决RNN不能够对长序列进行处理和训练的原因。 梯度消失原因详解:https://t.zsxq.com/7qzRBeE 那好,既然RNN有这样的问题,该怎么解决呢? LSTM是一个应用广泛的模型,但随着Attention机制的提出,transfomer开始作为一种更为强大的特征抽取模型,开始横扫各大NLP任务的榜单。 不出意外,transformer将会取代RNN及其衍生(LSTM GRU)模型,成为NLP中,最受欢迎、最为强大的特征抽取模型。 【NLP】用于语音识别、分词的隐马尔科夫模型HMM 【NLP】用于序列标注问题的条件随机场(Conditional Random Field, CRF) 【NLP】经典分类模型朴素贝叶斯解读 【NLP

    2.5K10发布于 2019-07-26
  • 来自专栏云时之间

    NLP入门之语音模型原理

    这一篇文章其实是参考了很多篇文章之后写出的一篇对于语言模型的一篇科普文,目的是希望大家可以对于语言模型有着更好地理解,从而在接下来的NLP学习中可以更顺利的学习. 1:传统的语音识别方法: 这里我们讲解一下是如何将声音变成文字 基于深度学习的声学模型训练过程必须是由传统的混合高斯模型开始的,然后对训练数据集合进行强制的对齐,然后进行切分得到不同的声学特征,其实传统的方式并不利于对于整句话的全局优化,并且这个方法也需要额外的语音学和语言学的知识 随着神经网络优化技术的发展和GPU计算能力的不断提升,最终使用RNN和CTC来进行建模实现了end-to-end语音识别的声学模型。 这里仍然可以描述为EM的思想: E-step:使用BPTT算法优化神经网络参数; M-step:使用神经网络的输出,重新寻找最有的对齐关系。 CTC可以看成是一个分类方法,甚至可以看作是目标函数。 但这个语言模型仍然比较弱,如果外加一个更大数据量的语言模型,解码的效果会更好。因此,End-to-end现在指声学模型部分,等到不需要语言模型的时候,才是完全的end-to-end。

    1.8K120发布于 2018-04-11
  • 来自专栏自然语言处理(NLP)论文速递

    (含源码)「自然语言处理(NLP)」社区问答评估&&各种Bert模型优化对比

    https://arxiv.org/pdf/1810.04805v2.pdf Code: https://github.com/tensorflow/models/tree/master/official/nlp https://arxiv.org/pdf/2003.02436v1.pdfCode: https://github.com/tensorflow/models/tree/master/official/nlp 7、TILE: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Author: Colin 本文我们通过引入一个统一的框架来探索NLP的迁移学习技术的前景,该框架将每种语言问题都转换为文本到文本格式。 为了促进NLP迁移学习的未来工作,我们发布了数据集,预训练的模型和代码。 ?

    79530发布于 2020-07-31
  • 来自专栏自然语言处理

    NLP系列(二)LDA主题模型

    LDA模型NLP中很基础也是大家广为熟知的模型,在面试过程也经常遇到。本文简单讲述下其大致流程。 1 LDA 简介 首先,我们来感受下LDA是什么, ? 什么是LDA模型? 看来,不同人在不同场景下对LDA的认识,那我们看下百科的解释: LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构 所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。 以上讲了大致LDA的感性认识,如果进行严格的数学推导请看这篇文章(https://www.jianshu.com/p/74ec7d5f6821),本人认为是看到的不错的文章。 4 参考资料 LDA(LDA文档主题生成模型)_百度百科

    4.8K50发布于 2019-06-24
  • 来自专栏机器学习养成记

    NLP基础:N-Gram模型

    导读:NLP技术经历了人工撰写规则、机器学习、深度学习的衍变过程,应用范围及准确度在不断提升。 N-Gram是NLP领域的重要概念之一,依据统计知识获得词出现概率、句子出现概率,此方法易于理解且在很多应用上被证明有效。 1 概念 变量W代表一个有m个词的序列,即 ? 从计算上看,知道一个词出现的概率需要知道其前面所有词的出现概率,这种方法太过复杂,因此这里引入了马尔可夫模型,即当前词的出现概率仅与前面几个词有关。由此产生了N-Gram模型。 N-Gram模型又称为n-1阶马尔可夫模型,指建立一个长度为n字节的窗口在文本上滑动,假定第n个词出现的概率只与前面n-1个词相关,与其他词不相关。整个句子出现的概率即为各个词出现的概率: ? 当n取的越大,对下个词出现的约束信息越多,模型越准确,但需要的计算量越大。因为当文本中有不同的词|V|个,则所有可能的N-Gram数就有|V|的n次方个。

    1.5K20发布于 2021-04-09
  • 来自专栏学弱猹的精品小屋

    NLP——HMM模型与计算实例

    这一部分摘自我这学期在电子工程与计算机(Electrical Engineering and Computer Science, EECS)所修的自然语言处理(Natural Language Processing, NLP 隐马尔可夫模型的三大类问题 隐马尔可夫模型有三大类问题。但在这里我们只介绍两个,因为最后一个是需要使用EM算法的,但是在NLP的背景下暂时还用不上,所以我们这里就不多提了。 HMM在NLP中的应用 在NLP中,HMM也有它自己的一个应用,这个就是HMM标签器(tagger)。 但是如果要使用上面的隐马尔可夫模型,我们必然是需要一些假设的。具体来说就是 第一个就是隐马尔可夫模型中的条件独立假设,第二个其实是NLP中的n-gram假设。 小结 本节主要介绍了隐马尔可夫模型的具体应用,理解和计算实例,并简单的介绍了一个它在NLP中的一个应用例子。

    1.3K20发布于 2021-10-18
  • 来自专栏NLP蜕变测试

    NLP模型中的蜕变测试

    这种方法在NLP领域也很有用。 蜕变关系(Metamorphic Relation, MR) MR是蜕变测试中的核心概念。蜕变关系是指:在输入变化时,输出应该遵循的预期规律。 2 在NLP模型中的应用 以图文情感分类任务为例。任务描述:根据图片和文本,确定情感极性。 使用蜕变测试来验证模型的准确性和鲁棒性,并可以通过系统地修改输入并检查模型的相应,可以揭示模型在实际应用中可能遇到的问题。 模型的预测结果应该保持一致。 (2)文本的句法转变:对文本进行句法结构的改变,例如将主语语态改为被动语态,但是保持原有的信息和情感不变。模型的预测应该一样。 分析不一致性 如果模型不遵循蜕变关系,分析不一致性的原因,这可能暴露模型的弱点或者数据处理的问题。 调整模型或者数据 根据测试结果调整模型或数据预处理步骤,并重复测试,直到模型表现满意为止。

    75310编辑于 2023-11-23
  • 来自专栏数据科学(冷冻工厂)

    微调预训练的 NLP 模型

    针对任何领域微调预训练 NLP 模型的分步指南 简介 在当今世界,预训练 NLP 模型的可用性极大地简化了使用深度学习技术对文本数据的解释。 然而,虽然这些模型在一般任务中表现出色,但它们往往缺乏对特定领域的适应性。本综合指南[1]旨在引导您完成微调预训练 NLP 模型的过程,以提高特定领域的性能。 这一适应过程显着增强了模型的性能和精度,充分释放了 NLP 模型的潜力。 ❝在处理大型预训练 NLP 模型时,建议首先部署基本模型,并仅在其性能无法满足当前特定问题时才考虑进行微调。 数据概览 为了使用此方法对预训练的 NLP 模型进行微调,训练数据应由文本字符串对组成,并附有它们之间的相似度分数。 总结 微调预训练的 NLP 模型以进行领域适应是一种强大的技术,可以提高其在特定上下文中的性能和精度。通过利用高质量的、特定领域的数据集和暹罗神经网络,我们可以增强模型捕获语义相似性的能力。

    65831编辑于 2023-08-10
  • 来自专栏机器学习养成记

    NLP基础:NNLM模型代码示例

    导读:在NLP基础:NNLM模型介绍中,已经介绍了NNLM模型原理,通过对网上已发布的代码进行完善并标注,进行模型代码示例展示。 i for i, w in enumerate(word_list)} #{'渴': 0, '错': 1, '不': 2, '好': 3, '起': 4, '他': 5, '对': 6, '你': 7, = {i: w for i, w in enumerate(word_list)} #{0: '渴', 1: '错', 2: '不', 3: '好', 4: '起', 5: '他', 6: '对', 7: ,本模型暂不包含直连边 def define_model(): model = Sequential() #Dense为全连接网络 model.add(Dense(2,activation adam', loss='categorical_crossentropy', metrics=['accuracy']) model.summary() return model #训练模型

    55420编辑于 2022-11-25
  • 来自专栏ShowMeAI研究中心

    斯坦福NLP课程 | 第12讲 - NLP子词模型

    [比单词粒度更细的模型] 需要处理数量很大的开放词汇:巨大的、无限的单词空间 丰富的形态 音译 (特别是名字,在翻译中基本上是音译) 非正式的拼写 1.5 字符级模型 [字符级模型] ① 词嵌入可以由字符嵌入组成 书写系统 [单词之下:书写系统] 大多数深度学习NLP的工作,都是从语言的书面形式开始的:这是一种容易处理的、现成的数据 但是人类语言书写系统不是一回事! 2.基于字符粒度的模型 2.1 纯字符级模型 [纯字符级模型] 上节课,我们看到了一个很好的用于句子分类的纯字符级模型的例子 非常深的卷积网络用于文本分类 Conneau, Schwenk, Lecun 模型较小时,word-level 更佳 模型较大时,character-level 更佳 3.子词模型 3.1 子词模式:两种趋势 [子词模式:两种趋势] 与 word 级模型相同的架构 但是使用更小的单元 Byte Pair Encoding Minh-Thang Luong and Christopher Manning FastText 论文 6.视频教程 可以点击 B站 查看视频的【双语字幕】版本 7.

    1K31编辑于 2022-05-16
领券