首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从一个不同于训练中的句子中预测下一个单词

从一个不同于训练中的句子中预测下一个单词
EN

Data Science用户
提问于 2023-02-01 11:56:12
回答 1查看 48关注 0票数 0

我正在建立一个自定义解码器专用的变压器模型,这是关于下一个单词预测任务的训练。训练过程类似于chat GPT模型--模型的输入是一个长度为K的句子(例如K=30),目标是这句话向右移动一句,例如:

“我想要一杯”-输入

“想喝杯茶”-输出

如果我在指定长度的句子上训练我的模型,比如K=30,当它被提供更短的句子时,它将如何在推理模式下执行,比如长度3?

EN

回答 1

Data Science用户

发布于 2023-02-01 12:28:39

这只能用你的数据、模型和训练设置的实际实验来回答。

然而,先前的研究(参见序列长度是一个域:变压器模型中基于长度的过拟合,发表在EMNLP‘21上)表明,变形金刚并不能很好地概括到看不见的序列长度:

在我们的目标实验中,我们发现香草变压器序列到序列模型在训练序列的目标侧长度方面有很强的过度适应倾向。在一个简单的算法任务上,我们证明了转换器可以很好地推广到相同长度桶中的未见示例,但如果输入不同长度、更短或更长的任务需要相同的任务,则会出现不足。任务的算法,即使非常简单,也是没有学习的。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/118210

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档