我正在看下面的tensorflow变压器的实现。
https://www.tensorflow.org/text/tutorials/transformer
我不确定我的理解是否正确。在初始化变压器模型时,需要以一种无监督的方式对大量原始文本进行培训,这样它才能学习语言,然后您就可以使它适应特定的任务。
在这个例子中,我不确定训练数据是否被用来训练变压器模型本身?看起来只有一个“合适”的程序。这是正确的吗?
发布于 2022-09-10 17:48:28
2017年,变压器的模型是原拟用于机器翻译,在那里它直接接受了翻译任务的培训。通过自我监督学习对基于变压器的模型进行预训练的附加步骤随后出现在GPT和BERT这样的模型中。您正在查看的帖子是前一种方法的一个例子。
https://stackoverflow.com/questions/73591224
复制相似问题