如果我们要进行微调,是否有必要对整个模型进行再培训?
假设我们从OpenAI得到了GPT-3模型(我知道GPT-3是封闭的)。
如果有GPT-3型号的重量,拥有几个RTX 3080 GPU的人能够微调它吗?
还是需要像大公司这样的基础设施?
发布于 2022-11-17 19:23:42
不,你不需要重新训练整个模型。微调指的是在一般模型中训练的权重,然后使用特定的数据继续进行一些训练。使用这种方法,您需要完全训练的通常是从模型执行下游任务的模型,这些模型创建了数据的表示,通常只有少数几个紧密连接的层来执行例如分类,这比表示模型的训练成本低几个数量级。
发布于 2022-11-17 19:04:10
是。如果是开源的,我们将能够根据我们的需求定制模型。这是一种被称为迁移学习的最重要的建模技术。
一个经过预先培训的模型,如GPT-3,本质上是为开发人员提供大量的辛勤工作:它教导模型对问题进行基本理解,并以通用格式提供解决方案。通过迁移学习,考虑到预先训练的模型能够生成基本的解决方案,我们可以将学习转移到另一个上下文中。
这就是为什么GPT-3在任何地方都有应用的原因:建立聊天机器人、问答模型、上下文推理等。
GPT-3可以理解段落并生成通用摘要.一个定制的GPT-3将能够理解医学期刊并生成相关的主题摘要。
https://datascience.stackexchange.com/questions/116268
复制相似问题