首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于变压器,如何提高文本的生成效果?

基于变压器,如何提高文本的生成效果?
EN

Data Science用户
提问于 2020-08-19 04:09:42
回答 1查看 308关注 0票数 1

如果没有像tensor2tensor这样的文本生成模型进行预训练,如何提高基于变压器的结果?

在文本生成任务中,变压器的改进思想是什么?

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-08-19 07:41:32

如果您有很多可供培训的数据,您应该应用大型变压器模型中使用的技术,如GPT-2:非常深的模型( 1.5B参数的48层)、修改的初始化、预归一化和可逆标记化。你也可以应用GPT-3's的局部带状稀疏注意模式。

如果您有非常小的训练数据,您可以应用这条推特中描述的“未写入”攻击技术,即数据增强、离散嵌入丢失、正常丢失和重量衰减,以及大量的病人培训时间。

更新:我觉得我提到的推特帖子很重要,下面是最相关的推文:

  • 如何在PTB和WikiText-2这样的小数据集上成功地训练变压器?LSTM在小数据集上更好吗?我进行了339项实验,花费了568个GPU小时,并想出了一些答案。我没有时间写博客文章,所以这里有一个推特帖子。
  • 给出一点背景:所有这一切都是因为我过去对复制PTB上的PTB结果和在WikiText-2 (WT2)上的结果非常差而感到沮丧。在WT2上,我在200+实验后的最佳模型是90 ppl,这与标准的LSTM基线(65.8ppl)相差甚远。
  • ..。
  • 关键之处在于:在小数据集体系中,它都是关于数据集增强的。计算机视觉中的模拟是,如果您进行某些数据集的增强,则会获得更好的结果,特别是在小型数据集上。这也使模型正规化。
  • 最引人注目的性能提升来自于离散嵌入丢失:你像往常一样嵌入,但现在你的概率为p为零的整个字向量。这类似于蒙面语言建模,但目标不是预测掩码--只是不确定上下文的常规LM。
  • 第二个最重要的因素是常规的输入丢失:采用概率为p的嵌入和删除元素,这也具有与删除图像随机像素非常相似的数据增强效果。思考这个问题的好方法是什么? 1/2
  • 记得我们可以做国王+女人=女王吗?现在假设输入退出删除了"King“的"man”部分。这迫使模型将特定信息(在这种情况下是性别)分配到多个维度,以提高泛化能力,使其更加健壮。2/2
  • 否则,这是一个进一步正规化(更多辍学+体重衰减)和耐心的游戏。我可以在15分钟内训练一个好的模型,没有这些技巧,得到97 ppl。如果我申请所有这些辍学,模型适合在7h的培训后,63.4ppl(好于LSTM)。
  • 您也可以将这些数据增强方法应用到大型数据集中,但没有人愿意在几个ppl点上进行几个月的WT-103培训。在我看来,需要这么多额外计算的技术对社区的危害比有用的要大。1/2
  • 在这里,代码更改为公共变压器-XL,我的结果是基于:https://github.com/TimDettmers/transformer-xl/tree/wikitext2
  • 通过对公共变压器- script的更改,您可以在WT2:https://github.com/TimDettmers/transformer-xl/blob/wikitext2/pytorch/replicate_wt2.sh上运行这个脚本以获得63.4ppl。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/80483

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档