搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏CSDN社区搬运
语音预训练模型wav2vec
因此，Wav2Vec在语音识别、语音合成、语音情感分析等领域有广泛的应用前景。基本原理文章提出一种无监督的语音预训练模型 wav2vec，可迁移到语音下游任务。模型预训练一个简单的多层卷积神经网络，并提出了一种噪声对比学习二分类任务(noise contrastive binary classification task)，从而使得wav2vec可以在大量未标注的数据上进行训练实验结果表明wav2vec预训练得到的speech representation超越了帧级别的音素分类任务并且可以显著提升ASR模型的表现，同时，完全卷积架构与使用的递归模型相比，可以在硬件上并行计算。作者在实验中使用了两种不同的感受野模型, 一种为普通规模, 用来在一般数据集上训练, 另一种则是大规模(wav2vec larqe) 用来在大数据集上训练。然而，Wav2Vec也面临一些挑战。训练一个高质量的Wav2Vec模型通常需要大量的计算资源和时间。模型的训练过程可能需要在大规模的语音数据上进行，并且可能需要使用分布式计算平台。
1.3K10编辑于 2024-11-27
来自专栏全栈程序员必看
预训练模型还要训练吗_多模态预训练模型
若使用已保存好的镜像reid_mgn:v1，在本机上可按如下操作训练 # 1.进入已保存环境的镜像（reid_mgn:v1（8.48G）、pytorch/pytorch:1.0.1-cuda10.0 cudnn7-devel_mgnreid /bin/bash docker attach ID nvidia-docker run -it –rm –name mgn -v /home/deep/share2/ cd /home/personReID/MGN-pytorch-master # 3.复制预训练模型到指定路径（可跳过这步） cp /home/personReID/MGN-pytorch-master （在原终端继续进行，注：demo.sh是已改好参数的） sh demo1.sh 补充：训练前需要修改的文件及代码 1.demo.sh文件修改data路径（把你的数据集路径添加到 –datadir）、训练，需按如下添加命令版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。
95420编辑于 2022-11-08
来自专栏AI科技评论
预训练后性能反而变差，自训练要取代预训练了吗？
论文地址：https://arxiv.org/abs/2006.06882 作者通过实验得出了以下结论： 1、如果预训练任务和目标任务存在差异，则预训练（包括监督和自监督）可能损害目标任务准确率； 2、 2 研究动机作者希望能解决以下问题：预训练对训练结果有多大程度的帮助？什么情况下使用预训练是无效的？与预训练相比，我们可以使用自训练并获得相似或更好的结果吗？此处的缩放等级与Augment-S2/S3相同。 ? 3、预训练为了研究预训练的有效性，作者使用了ImageNet预训练的检查点。 2）更多带标签的数据会降低监督预训练的价值：这不是一个新发现。我们都知道，当数据量较小时，预训练会对结果有所帮助。但是有足够数量的标记数据时，从头开始训练也不会得到很差的结果。 2）自训练适用于各种不同大小的数据集，并且可以看作对预训练的补充：作者发现自训练另一个有趣的方面是，它可以作为预训练的补充。
1.4K10发布于 2020-07-23
来自专栏磐创AI技术团队的专栏
transformer预训练模型
磐创AI分享来源 | Github 作者 | huggingace 编译 | VK 【导读】这里的预训练模型是当前提供的预训练模型的完整列表，以及每个模型的简短介绍。 OpenAI GPT-2的英语模型gpt2-large36个层，1280个隐藏节点，20个heads，774M参数量。 OpenAI GPT-2的英语模型gpt2-xl48个层，1600个隐藏节点，25个heads，1558M参数量。用MLM进行15种XNLI语言的预训练的XLM的模型。 xlm-mlm-tlm-xnli15-1024 12个层，1024个隐藏节点，8个heads。用MLM+TLM进行15种XNLI语言的预训练的XLM的模型。 xlm-clm-enfr-1024 6个层，1024个隐藏节点，8个heads。
5K30发布于 2020-03-31
来自专栏xiaosen
预训练模型介绍
len(array) - 1 # 二分查找 while left <= right: # 求中间下标 mid = (left + right) // 2 中国菜“鱼香肉丝”GPT给出的做法五、GPT背后原理 GPT（Generative Pre-trained Transformer）是一种基于深度学习的语言模型，其核心在于利用大规模的文本数据进行预训练 PyTorch：是一个动态图型的深度学习框架，提供了丰富的工具和API来构建、训练神经网络模型。它以其易用性、灵活性以及良好的社区支持而受到研究者和开发者的青睐。 GPT模型的训练过程包括两个主要阶段：预训练和微调。在预训练阶段，模型通过学习大量文本资料来把握语言的基本规律和模式；在微调阶段，模型则通过特定任务的训练数据进行精细调整，以适应具体的应用场景。
60011编辑于 2024-05-03
来自专栏活动
预训练范式演进：DeepSeek多阶段预训练技巧解密
从最初的无监督预训练到如今复杂的多阶段预训练范式，每一次演进都为模型性能的提升和应用场景的拓展提供了新的可能。 1.1 大模型预训练发展历程（一）早期无监督预训练在深度学习初期，无监督预训练主要通过自编码器等模型，在未标记数据上学习数据的特征表示。（二）语言模型预训练的兴起随着自然语言处理领域的发展，基于语言模型的预训练方法（如Word2Vec、GloVe）开始流行。（五）DeepSeek的多阶段预训练创新DeepSeek等系统进一步推动了预训练范式的发展，通过多阶段预训练策略，逐步提升模型的性能和泛化能力。 DeepSeek预训练框架的演进反映了大模型训练范式的三次革命：阶段时间范围核心技术训练数据量典型模型关键突破启蒙期2018-2020标准Transformer10-100GBBERT/GPT-2掩码语言建模扩展期
1.3K20编辑于 2025-03-16
来自专栏深度学习自然语言处理
【预训练模型】预训练语言模型的前世今生之风起云涌
预训练语言模型已经成为了NLP研究中一个非常火热的话题，优秀的模型包括BERT，GPT2等都在学术研究、工业领域、算法比赛中大放光彩。本文描述了一种通用的非监督预训练方法，提升了seq2seq模型的准确性。证明了预训练的过程直接提高了seq2seq模型的泛化能力，再次提出了预训练的重要性和通用性。他们提出了一种方法，使用两个预训练语言模型的参数来初始化seq2seq模型的encoder网络和decoder网络。图2为预训练seq2seq模型的结构，红色为encoder部分，蓝色为decoder部分，所有方框内参数均为语言模型预训练的，而方框外的参数为随机初始化。
1.8K20发布于 2020-03-05
来自专栏深度学习和计算机视觉
预训练图像处理Transformer
为了更好地说明为什么要用 Transformer，研究者还设计了一个基于 CNN 的预训练模型作为对照，并在 DIV2K 数据集 2 倍超分辨率的任务上探索了不同预训练数据量对模型性能的影响。图 2 展示了不同的数据量对 CNN 和 Transformer 模型的影响。结果显示，在预训练数据有限时，CNN 模型能获得更好的性能。图 2：预训练数据量对 CNN 与 IPT 模型的影响。可以看出，Transformer 模型能够更充分地发挥大规模训练数据的优势。自然语言处理领域的成功经验在底层视觉任务上得到了验证。底层视觉任务的预训练与微调 Transformer 的成功离不开大量数据预训练带来的性能提升。在这篇论文中，针对底层视觉任务，研究者提出一种使用 ImageNet 数据集对模型进行预训练的方法。在表 4 中，对于噪声强度为 10 和 70 的设定下（预训练为 20 和 50），IPT 模型依旧展现出巨大的优势，展示了预训练模型良好的泛化性。表 4：未经预训练任务上的实验结果。
85720编辑于 2022-05-22
来自专栏深度学习
GPT预训练模型介绍
它用一套极其聪明又略显简单的“预训练+微调”组合拳，告诉全世界：原来语言模型，可以这么玩！今天，我们就来拆解一下这位“祖师爷”，看看它当年是怎么“炼”成的。在预训练阶段，它装的是“文本预测头”，专心致志猜下一个词。到了微调阶段，就换成“任务分类头”，去解决具体的下游任务。这设计既专一又灵活。三、预训练：真正的“大力出奇迹” ✨ 理论基础再好，也得有数据“喂养”。GPT-1的“食谱”是一个名为BooksCorpus的语料库，里面是7000多本风格各异的英文小说，总计约8亿个词。这个过程的美妙之处在于：改动成本极低：预训练好的庞大模型参数几乎全部保留，只新增一个很小的分类层参数，训练起来又快又省资源。之后无论是BERT、GPT-2/3，还是后来的大模型浪潮，都是在这条道路上，投入更多数据、堆叠更大模型、探索更优范式。
26110编辑于 2026-02-04
来自专栏产品经理的人工智能学习库
预训练（Pre-train）
但是在标注数据很少的情况下，通过神经网络训练出的模型往往精度有限，“预训练”则能够很好地解决这个问题，并且对一词多义进行建模。预训练是通过大量无标注的语言文本进行语言模型的训练，得到一套模型参数，利用这套参数对模型进行初始化，再根据具体任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中，都被证明拥有更好的效果。目前，热门的预训练方法主要有三个：ELMo，OpenAI GPT和BERT。 ELMo和OpenAI GPT这两种预训练语言表示方法都是使用单向的语言模型来学习语言表示，而Google在提出的BERT则实现了双向学习，并得到了更好的训练效果。预训练上面内容转载自公众号微软研究院AI头条，原文地址百度百科版本无监督预训练是用来训练的数据不包含输出目标，需要学习算法自动学习到一些有价值的信息。查看详情
1.7K10发布于 2019-12-18
来自专栏自然语言处理
Bert预训练新法则！
预训练“15%遮蔽率” 惯例是可以被打破的 “15%遮蔽率”，指在一项预训练任务中，随机遮住15%的单词，并通过训练让AI学会预测遮住的单词。预训练需要超过15%的遮蔽率为了了解在 MLM 中可以遮蔽多少以字符及遮蔽率如何影响预训练模型的性能，本文预训练了一系列具有不同掩蔽率的模型，范围从 15% 到80%。结果表明语言模型预训练不必使用小于 15% 的掩码率，而使用高效预训练侧率的大型模型的最佳掩码率高达 40%。我们还看到在图 2 中的整个训练过程中，40% 的 masking 具有超过 15% 的一致性优势 “重新”理解Mask Rate 在本节中，作者从两个不同的角度分析掩蔽率如何影响 MLM 的预训练过程从那时起，在过往预训练模型研究中，80-10-10规则在几乎所有的MLM预训练工作中被广泛采用。
1.2K30编辑于 2022-03-11
来自专栏FreeBuf
AI领域的预训练与自训练
最近一年，AI领域出现了很多迁移学习(transfer learning)和自学习(self-learning)方面的文章，比较有名的有MoCo，MoCo v2，SimCLR等。但谷歌最新的研究表明，在数据量足够的情况下，至少在目标检测任务上，采用自训练得到的预训练模型对检测结果的提升要显著优于监督预训练与无监督预训练模型。不同数据增强模式下基线、监督式预训练、自训练式预训练下的目标检测结果对比 ? 不同数据增强模式下基线、监督式预训练、自训练式预训练下的目标检测结果对比 ? 统一实验条件下三种预监督方法对比作为与监督预训练与无监督预训练的对比，对照实验表明使用自训练方法得到的预训练模型在各种数据增强模式，不同主任务训练集尺寸的情况下都能获得明显受益，且显著优于基线(不使用预训练模型 EfficientNet-B7 和L2进行自训练相比监督式预训练可以达到更高的精度 03 结论通过以上一系列实验证明，监督预训练方法与无监督预训练方法对学习通用表示形式具有局限性，其原因研究者猜测，这两种预训练方法无法意识到当下要关注的任务
1.9K10发布于 2020-11-16
来自专栏机器之心
预、自训练之争：谷歌说预训练虽火，但在标注数据上自训练更有效
（下文中，这四种数据增强策略分别写作 Augment-S1、Augment-S2、Augment-S3 和 Augment-S4。） 2. 2）使用 Noisy Student 方法训练的 EfficientNet-B7 检查点，它利用额外 300M 无标注图像，实现了 86.9% 的 top-1 准确率。图 1：数据增强和数据集规模对预训练的影响。 2. 更多标注数据反倒会降低预训练的价值。研究者分析了标注数据集规模变化时，预训练的影响。下表 2 展示了使用四种数据增强策略时自训练的性能变化，并将这些结果与监督学习（Rand Init）和预训练（ImageNet Init）进行了比较。 ? 表 2：使用四种数据增强方法时自训练的性能变化，以及与监督学习和预训练的比较。 2. 自训练适用于不同规模的数据集，是对预训练的补充。
1.1K10发布于 2020-06-17
来自专栏一点人工一点智能
视觉语言预训练综述
从两个不同的角度介绍视觉语言预训练模型的体系结构： (1)从多模态融合的角度对比单流结构与双流结构。 (2)从整体架构设计的角度对比仅编码结构和编码-解码结构。 ● 单流与双流的对比，如下图所示。图2 单流结构和双流结构 ● 仅编码结构与编码-解码结构。许多视觉语言预训练模型采用仅编码的体系结构，其中跨模态表示被直接输入到输出层以生成最终输出。其中图像文本预训练和视频文本预训练得到了最广泛的研究。图像-文本预训练模型汇总见表1。视频-文本预训练模型汇总见表2。表1 图像-文本预训练模型汇总表表1 图像-文本预训练模型汇总表（续）表2 视频-文本预训练模型汇总表 1.4 下游任务多样化的任务需要视觉和语言的融合知识。 2)节省空间。目前已有少数工作对其进行展开了研究，诸如CLIP，CPT等，并且取得了不错的效果。预训练-提示范式目前还在探索阶段，未来将会有更多更有意义的工作出现。 ● 多模态融合。
83030编辑于 2023-08-25
来自专栏机器学习初学者精选文章
【NLP】预训练模型综述
第 2 节按时间顺序简要概述了预训练语言模型的整个发展历史；第 3 节详细介绍自然语言处理领域的经典预训练模型；第 4 节小结了预训练模型的优点和其对比分类；第 5 节对自然语言处理领域的预训练语言模型的未来发展趋势进行展望它证明了在大量无监督数据上预训练模型，并在少量有监督数据上微调模型这个思路对 Seq2Seq 模型同样具有效性，并提出了 Seq2Seq 目标和语言模型目标联合训练以提高泛化能力的想法。 RoBERTa 对 BERT 模型进行了一些更改，包括：1）使用更大的批次和更多的数据对模型进行更长的训练；2）取消 NSP 任务；3）在更长的序列上训练；4）在预训练过程中动态更改 Mask 位置[18 UniLM 进一步将双向语言模型、单向语言模型、Seq2Seq 语言模型结合进行预训练[22]。，这通常会带来更好的泛化性能，并加速对目标任务的收敛；预训练可以看作是一种正则化，以避免小数据的过拟合； 4.2 预训练语言模型的对比分类下面分别从特征抽取和语言模型目标 2 个方面对预训练语言模型进行分类
2.4K12发布于 2020-05-26
来自专栏NewBeeNLP
贫穷让我预训练
01 要不要预训练预训练的效果是直接的，需要的资源常常令人望而却步。如果有这样一种预训练方法，它需要算力、数据、人工的资源很少，低到单人单卡原始语料就可以启动。如果不预训练的话，也会为每个下游任务专门微调模型。预训练的预期收益是确定的。我们的语料库质量上很烂，但是数量足够。算力资源很有限，配合相应的人才储备可弥补。此时预训练的条件都已经具备。所以我们探索预训练，希望能构建统一的预训练任务，让各个下游模型都受益。 UR-LCS的样本对没有经过LCS筛选过滤；UR-CL没有对比表示学习，相当于传统的语言模型；GUR-LM只有向量对比表示学习，没有语言建模学习，相当于为下游任务专门微调；NLPC是百度场内的一个word2vec 04 结语本文提出了一种新的预训练范式，上述对照实验表明了，联合训练不会造成目标冲突。GUR模型在继续预训练时，可以在保持语言建模能力的基础上，增加向量表示的能力。一次预训练，到处零原样本推理。
49340编辑于 2023-08-29
来自专栏机器学习AI算法工程
最强 NLP 预训练模型库 PyTorch-Transformers 正式开源：支持 6 个预训练框架，27 个预训练模型
PyTorch-Transformers（此前叫做pytorch-pretrained-bert）是面向自然语言处理，当前性能最高的预训练模型开源库。该项目支持 BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM 等，并包含 27 个预训练模型。 pytorch-transformers#quick-tour 官网： https://huggingface.co/pytorch-transformers/index.html 该开源库现在包含了 PyTorch 实现、预训练模型权重 27个预训练模型项目中提供了27个预训练模型，下面是这些模型的完整列表，以及每个模型的简短介绍。每个模型架构（Bert、GPT、GPT-2、Transformer-XL、XLNet、XLM）的详细示例均可在完整的文档中找到。
1.5K20发布于 2019-10-28
来自专栏AI算法能力提高班
CLIP-图文预训练模型
-- paper https://arxiv.org/abs/2103.00020 code https://github.com/openai/CLIP ---- Abstract 连接文本和图像的预训练模型训练数据是网络社交媒体上搜集的图像文本对。 (2) (3) Downstream inference 在下游任务测试时，有两种使用CLIP的方法。 value, index in zip(values, indices): print(f"{cifar100.classes[index]:>16s}: {100 * value.item():.2f 在训练集中基本不会出现的比较novel的任务，表现欠佳，比如classifying the distance to the nearest car in a photo；训练集中没有出现的图片类型（out-of-distribution
1.1K30编辑于 2023-09-13
来自专栏算法一只狗
ACL2021：预训练模型
目前多语言预训练模型，例如mBert，XLM-R，mT5等，可以涵盖100多种不同的语言。但是在以前的证据中，单语言模型在下游任务上会比多语言模型要好，因此本文主要是探讨这个假设是否成立。但是现有的预训练模型，往往会存在模型尺寸大、参数大等问题，从而限制了此类模型在实际中的部署。因此可以利用这种规律，根据不同的异常检测任务，从而定义预训练模型的层数。举个例子：左图eating是形态异常、右图laughed是语义异常。因此文本主要是在预训练的模型中，观察不同压缩比的情况下子网络的表现。从实验中观察到，随着压缩比的增加，“中奖彩票”的泛化性能先提高，然后在一定阈值后恶化。但随着压缩比例增加，模型效果会变差（阶段2、3）模型越小，具有越大的bias，越小的variance。在多任务中，不同的任务需要模型去平衡bias和variance。但是现有的方法没有有效平衡。
39220编辑于 2022-11-04
来自专栏NewBeeNLP
Dont stop pretraining，继续预训练！
作者 | 周俊贤整理 | NewBeeNLP 大家在用BERT等预训练模型的时候，是否有根据具体的下游任务，再进行领域的预训练？实验中，作者采用的是「RoBERTa模型继续针对4个领域语料继续进行预训练，得到4个领域的预训练模型」。 DAPT+TAPT指先对领域语料继续预训练，再对任务语料继续预训练，是效果最佳的。计算效率任务领域的预训练相对于适应领域的预训练，「性价比更高」。随机种子1 随机种子2 随机种子3 随机种子4 随机种子5 平均 rbt3 0.7486 0.7493 0.7487 0.7529 0.7425 0.7484 Curated-TAPA 0.7502 0.7525
2K20发布于 2021-10-20

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

语音预训练模型wav2vec

预训练模型还要训练吗_多模态预训练模型

预训练后性能反而变差，自训练要取代预训练了吗？

transformer预训练模型

预训练模型介绍

预训练范式演进：DeepSeek多阶段预训练技巧解密

【预训练模型】预训练语言模型的前世今生之风起云涌

预训练图像处理Transformer

GPT预训练模型介绍

预训练（Pre-train）

Bert预训练新法则！

AI领域的预训练与自训练

预、自训练之争：谷歌说预训练虽火，但在标注数据上自训练更有效

视觉语言预训练综述

【NLP】预训练模型综述

贫穷让我预训练

最强 NLP 预训练模型库 PyTorch-Transformers 正式开源：支持 6 个预训练框架，27 个预训练模型

CLIP-图文预训练模型

ACL2021：预训练模型

Dont stop pretraining，继续预训练！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐