我正在建立一个自定义解码器专用的变压器模型,这是关于下一个单词预测任务的训练。训练过程类似于chat GPT模型--模型的输入是一个长度为K的句子(例如K=30),目标是这句话向右移动一句,例如:
“我想要一杯”-输入
“想喝杯茶”-输出
如果我在指定长度的句子上训练我的模型,比如K=30,当它被提供更短的句子时,它将如何在推理模式下执行,比如长度3?
发布于 2023-02-01 12:28:39
这只能用你的数据、模型和训练设置的实际实验来回答。
然而,先前的研究(参见序列长度是一个域:变压器模型中基于长度的过拟合,发表在EMNLP‘21上)表明,变形金刚并不能很好地概括到看不见的序列长度:
在我们的目标实验中,我们发现香草变压器序列到序列模型在训练序列的目标侧长度方面有很强的过度适应倾向。在一个简单的算法任务上,我们证明了转换器可以很好地推广到相同长度桶中的未见示例,但如果输入不同长度、更短或更长的任务需要相同的任务,则会出现不足。任务的算法,即使非常简单,也是没有学习的。
https://datascience.stackexchange.com/questions/118210
复制相似问题