搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏【关于 NLP】那些你不知道的事
【关于 Elmo】那些你不知道的事
使用时，单词间具有特定上下文，可根据上下文单词语义调整单词的emb表示（可解决多义词问题）理解：因为预训练过程中，emlo 中的 lstm 能够学习到每个词对应的上下文信息，并保存在网络中，在 fine-turning 时，下游任务能够对该网络进行 fine-turning，使其学习到新特征； image.png 三、Elmo 问题篇 3.1 Elmo 存在的问题是什么？
65800发布于 2021-03-01
来自专栏腾讯大讲堂的专栏
QQ看点日报内容优化——基于BERT的热点召回系统
先基于业务语料的自监督学习让BERT更熟悉业务数据，再进行语义匹配的fine-turning。 fine-turning BERT针对语义匹配问题，最常见的网络结构如下图所示，直接输入句子pair，判断pair中的两个句子是否匹配。 ?
1.9K20发布于 2019-12-18
来自专栏DotNet NB && CloudNative
使用 SemanticKernel 进行 vector 的存储与检索
因为绝大多数人跟公司是没有 fine-turning 的能力的。不管是在难度还是成本的角度看 RAG 技术都友好的多。
41100编辑于 2025-02-27
来自专栏我还不懂对话
『论文阅读』：Convolutional Neural Networks for Sentence Classification
Fine-turning的预训练词向量对于每个任务更进一步的提升空间。
1.2K10发布于 2021-10-19
来自专栏Coggle数据科学
2020腾讯广告算法大赛方案分享（亚军）
模型可以不切换状态连续训练，经测试发现，在标签预测阶段，学习率降低50倍，效果明显，具有fine-turning的特性。 2.BERT 与 Target Inject对比 ? 结果与分析 ?
2K50发布于 2020-08-17
来自专栏Technology Share
大语言模型距离替代程序员还有多远？
除此之外，模型还专门针对竞赛题目进行了额外的fine-turning 训练（CodeContests 数据集）输入和输出格式输入：程序函数的注释输出：程序代码 3 总结常规大语言模型并未专门针对编程语言进行学习，它并不擅长代码生成，因此，针对代码通常需要进行专门的微调（fine-turning），甚至专门训练面向代码的大模型。
94310编辑于 2023-07-03
来自专栏机器学习算法与Python学习
干货｜多重预训练视觉模型的迁移学习
2.冻结（Freezing）：fine-turning方法需要相对较强的计算能力和较大的数据量。对于较小的数据集，通常“冻结”网络的一些第一层，这就意味着预训练网络的参数在这些层中是固定的。
2K70发布于 2018-04-08
来自专栏新智元
LeCun最新演讲：深度学习大革命来了，可微分编程潜力巨大
技术的趋势是这样的，很显然监督会不断减少，或者不断弱化，出现无监督的Feature Learning，有监督的Fine-Turning。这就使得我们出现一些新的理论，我相信之后应该有多维度的可能性。
42540发布于 2018-05-29
来自专栏AI科技评论
首篇严肃的“BERT学”研究，40+ 论文对比，解读 BERT 工作原理
arxiv.org/abs/2002.12327 基于此背景，Anna Rogers等人对当前霸占各大NLP任务榜单的 BERT 模型进行了论述，分析了BERT模型工作机理，包括pre-training和fine-turning
1.1K10发布于 2020-04-14
来自专栏【关于 NLP】那些你不知道的事
【关于 NLP】百问百答
2.4 【BERT】 fine-turning 篇？ 2.4.1 【BERT】为什么 Bert 需要 fine-turning？ 2.4.2 【BERT】 Bert 如何 fine-turning？
1.2K30发布于 2021-03-11
来自专栏【关于 NLP】那些你不知道的事
【关于 NLP】百问百答
2.4 【BERT】 fine-turning 篇？ 2.4.1 【BERT】为什么 Bert 需要 fine-turning？ 2.4.2 【BERT】 Bert 如何 fine-turning？
1.4K62发布于 2021-03-11
来自专栏NLP/KG
大语言模型的预训练[5]：语境学习、上下文学习In-Context Learning：精调LLM、Prompt设计和打分函数设计以及ICL底层机制等原理详解
由于 content limit，一些任务更适合用 fine-turning 来做。这也导致一些研究结论其实并未在文本生成类的任务上进行验证。
8.2K41编辑于 2023-07-19
来自专栏机器之心
GPT、BERT、XLM、GPT-2、BART…你都掌握了吗？一文总结文本生成必备经典模型（二）
再次，在预训练阶段，GPT-2采用了多任务的方式，每一个任务都要保证其损失函数能收敛，不同的任务是共享主体transformer参数的，这样能进一步的提升模型的泛化能力，因此在没有fine-turning
1.6K21编辑于 2023-03-29

【关于 Elmo】那些你不知道的事

QQ看点日报内容优化——基于BERT的热点召回系统

使用 SemanticKernel 进行 vector 的存储与检索

『论文阅读』：Convolutional Neural Networks for Sentence Classification

2020腾讯广告算法大赛方案分享（亚军）

大语言模型距离替代程序员还有多远？

干货｜多重预训练视觉模型的迁移学习

LeCun最新演讲：深度学习大革命来了，可微分编程潜力巨大

首篇严肃的“BERT学”研究，40+ 论文对比，解读 BERT 工作原理

【关于 NLP】百问百答

【关于 NLP】百问百答

大语言模型的预训练[5]：语境学习、上下文学习In-Context Learning：精调LLM、Prompt设计和打分函数设计以及ICL底层机制等原理详解

GPT、BERT、XLM、GPT-2、BART…你都掌握了吗？一文总结文本生成必备经典模型（二）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

【关于 Elmo】 那些你不知道的事

QQ看点日报内容优化——基于BERT的热点召回系统

使用 SemanticKernel 进行 vector 的存储与检索

『 论文阅读』：Convolutional Neural Networks for Sentence Classification

2020腾讯广告算法大赛方案分享（亚军）

大语言模型距离替代程序员还有多远？

干货｜多重预训练视觉模型的迁移学习

LeCun最新演讲：深度学习大革命来了，可微分编程潜力巨大

首篇严肃的“BERT学”研究，40+ 论文对比，解读 BERT 工作原理

【关于 NLP】百问百答

【关于 NLP】百问百答

大语言模型的预训练[5]：语境学习、上下文学习In-Context Learning：精调LLM、Prompt设计和打分函数设计以及ICL底层机制等原理详解

GPT、BERT、XLM、GPT-2、BART…你都掌握了吗？一文总结文本生成必备经典模型（二）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

【关于 Elmo】那些你不知道的事

『论文阅读』：Convolutional Neural Networks for Sentence Classification