搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏mathor
RoBERTa概述
RoBERTa相较于BERT最大的改进有三点：动态Masking 取消NSP (Next Sentence predict) 任务扩大Batch Size 静态Masking vs 动态Masking 取消NSP任务其实到2020年了，很多论文早已不再使用NSP任务，但是RoBERTa算是比较早的一批质疑NSP任务的模型。 RoBERTa实验了4种方法： SEGMENT-PAIR + NSP：输入包含两部分，每个部分是来自同一文档或者不同文档的 segment （segment 是连续的多个句子），这两个segment 的扩大Batch Size 其实之前我看到过一个说法（源自Chinese-BERT-wwm）：降低batch size会显著降低实验效果 RoBERTa论文作者也做过相关实验，采用大的Batch Size steps是训练步数（为了保证bsz*steps近似相同，所以大bsz必定对应小steps）；lr是学习率；ppl是困惑度，越小越好；最后两项是不同任务的准确率 Reference 深度学习：前沿技术-RoBERTa
89120发布于 2020-11-03
来自专栏DeepHub IMBA
使用LORA微调RoBERTa
RoBERTa（Robustly optimized BERT approach）是由Facebook AI提出的一种基于Transformer架构的预训练语言模型。 peft import LoraConfig, get_peft_model from datasets import load_dataset peft_model_name = 'roberta-base-peft ' modified_base = 'roberta-base-modified' base_model = 'roberta-base' dataset = load_dataset('ag_news evaluate_model(full_finetuning_trainer.model, test_dataset) accuracy: 0.9460526315789474 总结我们使用PEFT对RoBERTa github.com/achimoraites/machine-learning-playground/blob/main/NLP/Text%20classification/Lightweight_RoBERTa_PEFT_LORA_FineTuning.ipynb
94911编辑于 2024-02-21
来自专栏朴素人工智能
RoBERTa: 捍卫BERT的尊严
RoBERTa: A Robustly Optimized BERT Pretraining Approach（2019）众所周知，BERT对NLP领域的发展产生了极大的影响，刚一出现，它在当时的不少榜单上数据 BERT类的模型依赖于大规模的文本进行训练，RoBERTa的训练样本就比BERT更多而且更有多样性。而RoBERTa中使用Dynamic Masking，只是在序列送入模型中的时候才去进行动态的masking，这样在更大的数据集上或者更多步数的训练上会表现更好。虽然相比于BERT使用30K的字符BPE的字典，Roberta会在Embedding层额外引入15M到20M的参数量，但是用一个固定的词典，相比而言是比较好的，而两者在性能上几乎没有区别。经过这些操作的RoBERTa，在各排行榜上都取得了state-of-art的效果。附上工程链接 https://github.com/pytorch/fairseq 未完待续
6.3K10发布于 2020-06-21
来自专栏AI科技评论
BERT, RoBERTa, DistilBERT, XLNet的用法对比
导读：BERT, RoBERTa, DistilBERT, XLNet到底哪家强？在不同的研究领域和应用场景如何选择成了大难题。凡事莫慌，这篇文章帮你理清思路。 XLNet和RoBERTa改善了性能，而DistilBERT提高了推理速度。下表对它们进行了比较： ? RoBERTa，在Facebook上推出的Robustly是BERT的优化方案，RoBERTa在BERT的基础上进行再训练，改进了训练方法，还增加了1000％的数据，强化了计算能力。重要的是，RoBERTa使用160 GB的文本进行预训练，其中包含了16GB的文本语料库和BERT使用的英文Wikipedia。再加上1024个 V100的Tesla GPU每天都在运行，这使得RoBERTa具备了进行预训练的基础。因此，RoBERTa在GLUE基准测试结果上优于BERT和XLNet： ?
1.3K20发布于 2019-09-17
来自专栏大鹅专栏：大数据到机器学习
BERT系列RoBERTa ALBERT ERINE详解与使用学习笔记
背景继上一篇博客，这篇主要讲一下BERT以及BERT衍生的模型，如RoBERTa ALBERT ERINE等模型的改进与优化效果。不过首先还是我们先看下BERT。 1. 在后面的RoBERTa实验里验证，假如用单句拼接作为句子对相对于用连续片段拼接作为句子对，其实是损害性能的。 RoBERTa 提出，BERT并没有完全训练，只要使用更多的数据，训练更多的轮次，就可以得到超过XLNET的效果。 RoBERTa RoBERTa的全称叫做Robustly optimized BERT approach。最后的RoBERTa是采用去掉NSP而且一个样本是从同一个文档里面进行采样。
10.2K1910发布于 2021-08-19
来自专栏AI SPPECH
35_BERT与RoBERTa：优化编码器模型
RoBERTa的诞生：优化BERT的挑战 5. RoBERTa的关键优化技术 6. 动态掩码：从静态到动态的演变 7. 训练数据与批处理策略优化 8. 模型优化路径: BERT → 系统性复制研究 → 超参数优化 → RoBERTa 5. RoBERTa的关键优化技术 RoBERTa对BERT进行了四项关键优化： 1. RoBERTa在这两个方面进行了深入优化。阅读理解（RACE）在RACE阅读理解数据集上，RoBERTa也取得了优于BERT的成绩：模型准确率 BERT-Large 72.0 RoBERTa-Large 83.2 这一提升进一步证明了RoBERTa 本节将探讨BERT和RoBERTa在这些领域的发展。
47510编辑于 2025-11-13
AI+Drug 文献速递 | Ab-RoBERTa：基于 RoBERTa 的抗体专用大语言模型，高效推动抗体研究与工程应用
Antibody Foundational Model : Ab-RoBERTa 期刊: arXiv 链接: https://arxiv.org/abs/2506.13006 代码: https://huggingface.co /mogam-ai/Ab-RoBERTa 简介: 随着抗体疗法的重要性日益增加，该论文提出了Ab-RoBERTa，一个基于RoBERTa的抗体特异性大型语言模型，旨在支持抗原表位预测和人源化评估等多种抗体相关研究实验在下游任务中评估了Ab-RoBERTa的性能，结果显示其表现仅次于IgT5，但微调时间减少约五倍，展现出计算效率优势。
18610编辑于 2026-01-08
来自专栏深度学习自然语言处理
XLM-RoBERTa: 一种多语言预训练模型
XLM-Roberta有什么新功能？ Facebook AI团队于2019年11月发布了XLM-RoBERTa，作为其原始XLM-100模型的更新。 “ RoBERTa”从某方面来说，它的训练程序与单语言RoBERTa模型相同，特别是唯一的训练目标是掩码语言模型。它没有下句预测的á la BERT模型或者句子顺序预测的á la ALBERT模型。每种语言的常见爬虫数据集的容量增加超过了维基百科的(来自XLM-RoBERTa论文) XLM-Roberta现在使用一个大型共享语句块模型来标记字符串，而不是像XLM-100那样具有大量特定语言的分词器结果最后，我们对XLM-RoBERTa的一分类和两项NER任务进行了评估，它们表现出了非常出色的性能。XLM-RoBERTa Large与GermEval18（分类）的最佳提交分数不相上下。另外，对于NER任务，我们认为在XLM-RoBERTa的上一层添加CRF层会有所收获。 ?
3.4K20发布于 2020-07-28
来自专栏ATYUN订阅号
Facebook AI推出新模型RoBERTa，改进BERT的预训练方法
该模型被命名为RoBERTa，用于“Robustly Optimized BERT”方法，采用了许多来自transformer （BERT）的双向编码器表示所使用的技术。 RoBERTa的不同之处在于，它依赖于训练前的大量数据和训练数据掩蔽模式的改变。在训练前，原始的BERT使用了掩蔽语言建模和下一句话预测，但是RoBERTa放弃了下一句话预测的方法。总的来说，RoBERTa在9个GLUE基准任务中的4个实现了最先进的结果，并且拥有与XLNet相当的整体GLUE任务性能。为了制作RoBERTa，研究人员用1024个Nvidia V100 GPU训练大约一天。最后，团队对RoBERTa进行了较长时间的预训练，将预训练步骤从10万步增加到30万步，然后进一步增加到50万步。 ?
1.2K20发布于 2019-08-01
来自专栏小七的各种胡思乱想
RoBERTa & SpanBERT
这一章就训练方案的改良，我们来聊聊RoBERTa和SpanBERT给出的方案，看作者这两篇paper是一个组的作品，所以彼此之间也有一些共同点。正在施工中的代码库也接入了Roberta预训练模型，同时支持半监督，领域迁移，降噪loss，蒸馏等模型优化项，感兴趣的戳这里>>SimpleClassification RoBERTa RoBERTa与其说是一个新模型相信你一定也在不少paper里都看到过“训练方案参考RoBERTa，此处省略1K字”之类的，RoBERTa主要包括以下几点改良更大的batch size 更多的训练数据，训练更多的epochs 使用一个长文本替代 BERT的两段短文本, 并剔除NSP任务 Dynamic MASK 更大的batch size RoBERTa对batch size进行了参数调优，发现增加batch size可以有效提高MLM任务，以及下游迁移任务的效果而RoBERTa把MASK放到了input pipe过程中，因此不需要预先生成多份样本，考虑以上RoBERTa使用更多的数据，训练更多的epoch。
1.4K50编辑于 2022-05-15
来自专栏机器之心
2019最佳预训练模型：非暴力美学，14算力超越RoBERTa
ELECTRA 通过类似 GAN 的结构和新的预训练任务，在更少的参数量和数据下，不仅吊打 BERT，而且仅用 1/4 的算力就达到了当时 SOTA 模型 RoBERTa 的效果。 ? 从上图可以看到，同等量级的 ELECTRA 是一直碾压 BERT 的，而且在训练更长的步数之后，达到了当时的 SOTA 模型——RoBERTa 的效果。上面是各个模型在 GLUE dev/text 上的表现，可以看到 ELECTRA 仅用了 1/4 的计算量就达到了 RoBERTa 的效果。而且作者使用的是 XLNet 的语料，大约是 126G，但 RoBERTa 用了 160G。由于时间和精力问题，作者们没有把 ELECTRA 训练更久（应该会有提升），也没有使用各种榜单 Trick，所以真正的 GLUE test 上表现一般（现在的 T5 是 89.7，RoBERTa 是 88.5
95620发布于 2019-11-11
来自专栏大数据文摘
RoBERTa在SuperGLUE得分逼近人类，甩baseline十多个点
在RACE测试集上的结果显示，RoBERTa的Accyracy相比BERT(large)提高了10个百分点，相比XLNet(large)提高了2个百分点。现在，Facebook AI又将RoBERTa提交到了SuperGLUE，榜单显示RoBERTa已经领先Bert 15个百分点，表现直逼人类。离人类还有多远从SuperGLUE排行榜上看，RoBERTa的得分距离人类只有5.2分，但是NYU数据科学中心助理教授Sam Bowman在其推特上，关于这一排行榜RoBERTa直逼人类的表现也发表了看法还有几点需要注意: RoBERTa良好的表现很大程度受益于充足的数据集：ReCoRD和MultiRC。效果转移到数据不佳的任务比较困难。 Sam Bowman认为，他对觉得RoBERTa有个明显的天花板，而我们对于人类表现有一个比较低的估计，他敢打赌，接下来的5到10个百分点将变得相当难以突破。
57710发布于 2019-08-18
来自专栏机器之心
RoBERTa中文预训练模型，你离中文任务的「SOTA」只差个它
，并逐渐开源更大的 RoBERTa 中文预训练模型。 GitHub 项目介绍开源计划如下： 24 层 RoBERTa 模型 (roberta_l24_zh)，使用 30G 文件训练，9 月 8 日 12 层 RoBERTa 模型 (roberta_l12_ zh)，使用 30G 文件训练，9 月 8 日 6 层 RoBERTa 模型 (roberta_l6_zh)，使用 30G 文件训练，9 月 8 日 PyTorch 版本的模型 (roberta_l6_ RoBERTa：站在 BERT 的肩膀上说起 RoBERTa 模型，一些读者可能还会感到有些陌生。但是实际来看，RoBERTa 模型更多的是基于 BERT 的一种改进版本。 RoBERTa 的实际效果虽然没有中文预训练模型的效果比较，但 RoBERTTa 的作者对比了 RoBERTA（large）、BERT（large）和 XLNET 在不同任务上的表现结果。 ?
1.9K10发布于 2019-09-08
来自专栏自然语言处理(NLP)论文速递
(含源码)「自然语言处理(NLP)」RoBERTa&&XLNet&&语言模型&&问答系统训练
引言本次内容主要包括：鲁棒优化Bert模型（RoBERTa）、自回归预训练模型（XLNet）、无监督多任务学习语言模型、生成预训练语言理解、深层上下文单词表示、键值记忆网络、大规模问答系统训练等最后，资料整理不易，帮作者点个在看吧，谢谢~~ 正文开始 1 First Blood 1、TILE: RoBERTa: A Robustly Optimized BERT Pretraining Approach • Mandar Joshi Paper: https://arxiv.org/pdf/1907.11692v1.pdf Code: https://github.com/brightmart/roberta_zh
1.1K20发布于 2020-07-31
来自专栏AI科技大本营的专栏
Simple Transformer：用BERT、RoBERTa、XLNet、XLM和DistilBERT进行多类文本分类
simpletransformers.model import TransformerModel # Create a TransformerModel model = TransformerModel('roberta ', 'roberta-base', num_labels=4) 这将创建一个TransformerModel，用于训练，评估和预测。第一个参数是model_type，第二个参数是model_name，第三个参数是数据中的标签数： • model_type可以是['bert'，'xlnet'，'xlm'，'roberta'，'distilbert 下面给出一个例子： # Create a TransformerModel with modified attributes model = TransformerModel('roberta', 'roberta-base 感谢RoBERTa！预测/测试在实际应用中，我们常常不知道什么是真正的标签。要对任意示例执行预测，可以使用predict方法。
5.3K20发布于 2019-10-31
来自专栏机器学习入门与实战
基于RoBERTa模型进行互联网新闻文本情感分析实现top1
针对该任务，本文采用了RoBERTa模型，并改造了多个上层模型并通过投票融合的方式取得了较好的结果。模型结构基于RoBERTa模型[1]，进行上层结构改造，具体包括如下方法： 1．模型分为两部分，可以看做下层是n个RoBERTa模型（参数共享），把新闻文本分成n段后分别输入，上层使用双向GRU来连接 n个RoBERTa的pooler_output输出，最后进行分类。这样可以解决用RoBERTa处理长文本的问题。见图2模型结构1。图2：基于RoBERTa模型的五种结构 2．提取bert模型内部隐藏层第一状态位输出。模型参数与融合细节比赛中，我们尝试了多种bert预训练模型[2]，其中准确率最高的是RoBERTa-wwm-ext-large[5]，但其显存占用也较多。
2.2K10编辑于 2021-12-08
来自专栏深度学习自然语言处理
或许只用RoBERTa就够了
作者据此提出了简单有效的基于RoBERTa的baseline 模型。具体实验细节上，作者从预训练的BERT和RoBERTa中诱导出树，统称为”PTMs Induced Tree”，分别称为”BERT Induced Tree”和”RoBERTa Induced Tree ”；从在ALSC任务微调后的BERT和RoBERTa中诱导出树，统称为”FT-PTMs Induced Tree”，分别称为”FT- BERT Induced Tree”和” FT-RoBERTa Induced 实验中指出使用FT-Roberta会取得1%的性能提升。然而与复杂的诱导树的步骤相比仍然需要权衡。这也是作者在文末提到，使用现有的GNN方法结合树结构对于RoBERTa来说可能是得不偿失的。基于RoBERTa的MLP模型与SOTA相比，已经极具竞争力，这也是比较有趣的一点发现。
1.1K30发布于 2021-04-23
来自专栏新智元
Facebook推出RoBERTa新模型，碾压XLNet 制霸三大排行榜
今天，Facebook公开一个“强力优化”版的基于BERT预训练模型，名为RoBERTa，在GLUE、SQuAD和RACE三个排行榜上全部实现了最先进的结果。要说RoBERTa是如何制霸3个benchmark排行榜的，简言之，用更多的数据，采取更精妙的训练技巧，训练更久一些。最后，我们预先训练RoBERTa的时间要长得多，将预训练步数从100K增加到300K，再进一步增加到500K。在本文的其余部分，我们根据三个不同的基准评估我们最好的RoBERTa模型：GLUE，SQuaD和RACE。开发集上的RoBERTa结果是五次运行的中间数。测试集上的RoBERTa结果是单任务模型的集合。对于RTE，STS和MRPC，我们从MNLI模型而不是基线预训练模型开始微调。
1.4K20发布于 2019-07-31
来自专栏数据拾光者
广告行业中那些趣事系列18：RoBERTa-wwm-ext模型为啥能带来线上效果提升？
RoBERTa-wwm-ext模型相比于BERT主要有两大方面的优化，第一是RoBERTa预训练模型，第二是基于全词掩码的中文训练方式；然后重点分析RoBERTa预训练模型的六大优化项，包括动态Mask 1.3 RoBERTa-wwm-ext模型牛在哪里知道了RoBERTa-wwm-ext模型非常牛，下面我们需要弄清楚它为什么这么牛？ 02 RoBERTa预训练模型 2.1 RoBERTa是啥 RoBERTa是由FacebookAI和华盛顿大学的研究团队共同完成，英文全称是“Robustly optimized BERT approach 2.3 RoBERTa六大优化项上面讲了BERT模型的相关知识点，下面通过和原生BERT模型对比的方式来看看RoBERTa模型主要进行了哪些优化。 RoBERTa-wwm-ext模型相比于BERT主要有两大方面的优化，第一是RoBERTa预训练模型，第二是基于全词掩码的中文训练方式；然后重点分析RoBERTa预训练模型的六大优化项，包括动态Mask
1.5K40编辑于 2022-05-05
来自专栏DeepHub IMBA
使用DistilBERT 蒸馏类 BERT 模型的代码实现
from transformers import AutoModelForMaskedLM roberta = AutoModelForMaskedLM.from_pretrained("roberta-large ，我们只需要复制除最深层的 Roberta 层之外的所有内容，并且删除其中的一半。让我们写一个函数来复制这个配置，通过将其除以2来改变属性，然后用新的配置创建一个新的模型: from transformers.models.roberta.modeling_roberta import 函数如下: from transformers.models.roberta.modeling_roberta import RobertaEncoder, RobertaModel from torch.nn 对于 RoBERTa，Hugging Face 上已经存在类似 DistilBERT 的蒸馏版本。
91330编辑于 2022-03-12

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

RoBERTa概述

使用LORA微调RoBERTa

RoBERTa: 捍卫BERT的尊严

BERT, RoBERTa, DistilBERT, XLNet的用法对比

BERT系列RoBERTa ALBERT ERINE详解与使用学习笔记

35_BERT与RoBERTa：优化编码器模型

AI+Drug 文献速递 | Ab-RoBERTa：基于 RoBERTa 的抗体专用大语言模型，高效推动抗体研究与工程应用

XLM-RoBERTa: 一种多语言预训练模型

Facebook AI推出新模型RoBERTa，改进BERT的预训练方法

RoBERTa & SpanBERT

2019最佳预训练模型：非暴力美学，14算力超越RoBERTa

RoBERTa在SuperGLUE得分逼近人类，甩baseline十多个点

RoBERTa中文预训练模型，你离中文任务的「SOTA」只差个它

(含源码)「自然语言处理(NLP)」RoBERTa&&XLNet&&语言模型&&问答系统训练

Simple Transformer：用BERT、RoBERTa、XLNet、XLM和DistilBERT进行多类文本分类

基于RoBERTa模型进行互联网新闻文本情感分析实现top1

或许只用RoBERTa就够了

Facebook推出RoBERTa新模型，碾压XLNet 制霸三大排行榜

广告行业中那些趣事系列18：RoBERTa-wwm-ext模型为啥能带来线上效果提升？

使用DistilBERT 蒸馏类 BERT 模型的代码实现

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐