使用时,单词间具有特定上下文,可根据上下文单词语义调整单词的emb表示(可解决多义词问题) 理解:因为预训练过程中,emlo 中 的 lstm 能够学习到 每个词 对应的 上下文信息,并保存在网络中,在 fine-turning 时,下游任务 能够对 该 网络进行 fine-turning,使其 学习到新特征; image.png 三、Elmo 问题篇 3.1 Elmo 存在的问题是什么?
先基于业务语料的自监督学习让BERT更熟悉业务数据,再进行语义匹配的fine-turning。 fine-turning BERT针对语义匹配问题,最常见的网络结构如下图所示,直接输入句子pair,判断pair中的两个句子是否匹配。 ?
因为绝大多数人跟公司是没有 fine-turning 的能力的。不管是在难度还是成本的角度看 RAG 技术都友好的多。
Fine-turning的预训练词向量对于每个任务更进一步的提升空间。
模型可以不切换状态连续训练,经测试发现,在标签预测阶段,学习率降低50倍,效果明显,具有fine-turning的特性。 2.BERT 与 Target Inject对比 ? 结果与分析 ?
除此之外,模型还专门针对竞赛题目进行了额外的fine-turning 训练(CodeContests 数据集)输入和输出格式输入:程序函数的注释输出:程序代码 3 总结常规大语言模型并未专门针对编程语言进行学习,它并不擅长代码生成,因此,针对代码通常需要进行专门的微调(fine-turning),甚至专门训练面向代码的大模型。
2.冻结(Freezing):fine-turning方法需要相对较强的计算能力和较大的数据量。对于较小的数据集,通常“冻结”网络的一些第一层,这就意味着预训练网络的参数在这些层中是固定的。
技术的趋势是这样的,很显然监督会不断减少,或者不断弱化,出现无监督的Feature Learning,有监督的Fine-Turning。这就使得我们出现一些新的理论,我相信之后应该有多维度的可能性。
arxiv.org/abs/2002.12327 基于此背景,Anna Rogers等人对当前霸占各大NLP任务榜单的 BERT 模型进行了论述,分析了BERT模型工作机理,包括pre-training和fine-turning
2.4 【BERT】 fine-turning 篇? 2.4.1 【BERT】为什么 Bert 需要 fine-turning? 2.4.2 【BERT】 Bert 如何 fine-turning?
2.4 【BERT】 fine-turning 篇? 2.4.1 【BERT】为什么 Bert 需要 fine-turning? 2.4.2 【BERT】 Bert 如何 fine-turning?
由于 content limit,一些任务更适合用 fine-turning 来做。这也导致一些研究结论其实并未在文本生成类的任务上进行验证。
再次,在预训练阶段,GPT-2采用了多任务的方式,每一个任务都要保证其损失函数能收敛,不同的任务是共享主体transformer参数的,这样能进一步的提升模型的泛化能力,因此在没有fine-turning