首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用bert模型的输出?

如何使用bert模型的输出?
EN

Stack Overflow用户
提问于 2020-08-31 23:16:21
回答 1查看 1.8K关注 0票数 0

bert模型给了我们两个输出,一个是batch,maxlen,hiddenstates,另一个是batch,hidden State of cls token。但是我不知道什么时候使用特定的输出。谁能告诉我哪个任务应该使用哪个输出??

EN

回答 1

Stack Overflow用户

发布于 2020-09-02 20:30:42

输出通常是[batch, maxlen, hidden_state],可以将输出范围缩小到[CLS]标记的[batch, 1, hidden_state],因为[CLS]标记是序列中的第一个标记。在这里,可以将[batch, 1, hidden_state]等同于[batch, hidden_state]

由于BERT是基于转换器的上下文模型,其思想是[CLS]令牌可以捕获整个上下文,并且对于简单的下游任务(如分类)来说就足够了。因此,对于使用句子表示进行分类之类的任务,可以使用[batch, hidden_state]。但是,您还可以考虑跨maxlen维度的[batch, maxlen, hidden_state],average,以获得平均嵌入。然而,一些顺序任务,例如使用CNN或RNN进行分类,需要表示的顺序,在此期间,您必须依赖于[batch, maxlen, hidden_state]。此外,还使用了一些训练目标,如预测掩蔽单词,或者对于班组1.1 (如BERT论文中所示),使用了整个嵌入[batch, maxlen, hidden_state]序列。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63673511

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档