首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么RNN文本生成模型将单词预测作为分类任务处理?

为什么RNN文本生成模型将单词预测作为分类任务处理?
EN

Data Science用户
提问于 2022-07-10 19:17:26
回答 1查看 94关注 0票数 1

在我发现的关于基于单词的RNN模型(LSTM或GRU)的文本生成的许多来源中,对模型进行了训练,以执行跨词汇表的分类任务(例如,使用分类交叉熵损失)来预测下一个单词。可以为启动器找到一个示例这里。在一个庞大的词汇表上,这在计算上非常昂贵。

在我看来,首先使用像伯特这样的预先训练过的模型,为训练/测试数据集中的每个单词获取上下文嵌入似乎要实际得多。然后,序列模型可以使用一个损失函数来预测单词,该函数使用MSE或余弦相似度(CosineEmbeddingLoss)度量预测与实际嵌入之间的距离。嵌入空间中的查找可以返回与每个预测最接近的单词,从而使输出具有可读性。

概述的方法有什么问题吗?还是对文本生成是可行的?对于大型词汇表来说,softmax操作符和分类任务似乎是不必要的。虽然伯特不能直接生成文本(伯特能用于句子生成任务吗?),但我认为使用伯特的嵌入或类似模型的嵌入来训练一个新模型没有什么问题(参见"BERT的特征提取“这里)。

EN

回答 1

Data Science用户

回答已采纳

发布于 2022-07-11 16:44:02

基于神经网络的文本生成与BERT的主要区别在于基于变压器的注意机制

这种注意机制对于增加词语之间的上下文是非常重要的,也解释了为什么在许多应用中,结果都优于RNN。

然而,在文本生成方面,GPT-2比BERT更适应,因为它使用了一种掩蔽的自我注意机制。面具自我注意模型是通过猜测下一个单词或标记来训练的,这与BERT在整个短语上的训练相反。这允许用概率来定义下一个单词序列,这要感谢前面的那些词。

下面是一篇解释GTP2如何工作的文章:https://jalammar.github.io/illustrated-gpt2/

模型在这里可用:https://huggingface.co/gpt2

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/112556

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档