首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么seq2seq模型优于简单的LSTM?

为什么seq2seq模型优于简单的LSTM?
EN

Data Science用户
提问于 2019-11-29 14:24:55
回答 2查看 1.4K关注 0票数 1

在深度学习领域,众所周知,最强大的递归体系结构是序列到序列,或seq2seq,用于几乎任何任务(对时间序列的预测、机器翻译、文本生成)。

为什么?LSTM编解码结构的性能优于更规范的RNN的基本数学原因是什么?它是在产生密集的潜在表征吗?是关于相对较高的参数数吗?任何暗示都是感激的。

EN

回答 2

Data Science用户

发布于 2019-11-29 15:12:27

编码器-译码器结构并不是简单的“更强大”比一个简单的LSTM。LSTM不能用于一般的序列转导任务(在其标准配置中)。另一方面,编码器-译码器结构是条件自回归模型,即它们在另一个序列上通过元素条件来生成序列元素。正是这种差异为简单的LSTM和编码器-解码器体系结构提供了完全不同的用例。

在基于LSTM的编解码结构中,需要通过信息从编码器传递到解码器的方式来区分不同的类型。最简单的形式是简单地将编码器LSTM的最后一个隐藏状态传递给第一个解码器LSTM;这意味着来自输入序列的所有信息都被“压缩”成一个固定长度的向量,这是已知的信息瓶颈。更复杂的形式包括使用注意机制,其中每个时间步骤的编码器隐藏状态被组合成每个解码器LSTM的不同以前的上下文向量;这里没有瓶颈,通常它们的结果要好得多。

票数 1
EN

Data Science用户

发布于 2021-04-27 15:47:07

它们不是分离的,seq2seq模型可以在其体系结构中使用LSTM,即编码器和解码器都可以由深双向的LSTM构成。

Seq2seq模型是一种对机器翻译这样的任务有用的体系结构。LSTM只是神经网络的一个组成部分。比较两者的相对性能是不可能的。这就像是在问一个问题,为什么一辆汽车比它的引擎好,或者一座房子比内部管道好。

Seq2seq模型在他们的最新形式现在使用全新的技术,称为变压器,并可能不再使用LSTM,这可能被认为是老式的!我想这是任何所谓的“优越性”的另一个原因。

对于为什么LSTM比RNN更好的原因,如果你在谷歌上搜索“消失/爆炸梯度问题”,就会发现很多信息。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/63997

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档