首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我们能在相同的数据集上微调模型吗?

我们能在相同的数据集上微调模型吗?
EN

Data Science用户
提问于 2021-04-18 12:01:56
回答 1查看 1.5K关注 0票数 2

所以我正在读的论文(关于训练前的用例,然后是自我训练),这让我思考--假设我在特定的数据集上预先训练了一个模型,然后在同一个数据集上对它进行微调。

理论上,如果我们把它训练成一个蒙面的LM和细调,它可能会导致过度适应--但我不确定。也许它不能很好地推广,但仍能提高准确度吗?

是否有人知道一些研究或其他可信的来源来解释为什么或为什么不应该这样做?

而且,如果这确实是可能的/建议的话,我们是否需要在Tensorflow、Keras或HuggingFace (基本上是任何深度学习框架或库)中采取一些额外的步骤才能这样做呢?

编辑:-一个简单的例子,我是说,如果我们有一个特定的监督任务,并对相同的功能进行预先培训,我们将微调--这会提高准确性吗?

EN

回答 1

Data Science用户

发布于 2021-04-19 19:42:21

在这篇论文中,培训前在同一数据集上进行微调是没有意义的,因为预培训是不受监督的,而微调是带有标签数据的。

但是,一般来说,如果您已经在dataset X上为N个时代进行了训练,然后使用整个X来微调另一个时代,这只是表示您为N+1时代而训练的另一种方式。它没有什么问题,除非你在问题中注意到,如果你在N个时代之后开始过度适应,你现在就更适合了。

有意义的是,以及我们在生产模型中使用的东西,是在一个大型数据集上进行初始培训,这是X1、X2、X3、.诸若此类。然后,一旦学习曲线开始趋于平缓,我们就拿出模型的副本,然后微调到例如X1。

这是在NLP转换器模型的背景下,所以可能对其他领域没有意义,但我们尝试对尽可能多的数据进行初步培训,尽可能地从所有领域,然后我们可以微调只是医疗论文,或只是经济报告,取决于模型将用于什么。(我们还对数据的一个子集做了最后的微调,让它学习特定的风格。令人惊讶的是,即使只有一个时代的这最后的微调,它可以切换到使用不同的方式写数字,例如)。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/93213

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档