文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么seq2seq模型优于简单的LSTM？

问为什么seq2seq模型优于简单的LSTM？
EN

Data Science用户

提问于 2019-11-29 14:24:55

回答 2查看 1.4K关注 0票数 1

在深度学习领域，众所周知，最强大的递归体系结构是序列到序列，或seq2seq，用于几乎任何任务(对时间序列的预测、机器翻译、文本生成)。

为什么？LSTM编解码结构的性能优于更规范的RNN的基本数学原因是什么？它是在产生密集的潜在表征吗？是关于相对较高的参数数吗？任何暗示都是感激的。

machine-learning

deep-learning

transformer

回答 2

Data Science用户

发布于 2019-11-29 15:12:27

编码器-译码器结构并不是简单的“更强大”比一个简单的LSTM。LSTM不能用于一般的序列转导任务(在其标准配置中)。另一方面，编码器-译码器结构是条件自回归模型，即它们在另一个序列上通过元素条件来生成序列元素。正是这种差异为简单的LSTM和编码器-解码器体系结构提供了完全不同的用例。

在基于LSTM的编解码结构中，需要通过信息从编码器传递到解码器的方式来区分不同的类型。最简单的形式是简单地将编码器LSTM的最后一个隐藏状态传递给第一个解码器LSTM；这意味着来自输入序列的所有信息都被“压缩”成一个固定长度的向量，这是已知的信息瓶颈。更复杂的形式包括使用注意机制，其中每个时间步骤的编码器隐藏状态被组合成每个解码器LSTM的不同以前的上下文向量；这里没有瓶颈，通常它们的结果要好得多。

票数 1

Data Science用户

发布于 2021-04-27 15:47:07

它们不是分离的，seq2seq模型可以在其体系结构中使用LSTM，即编码器和解码器都可以由深双向的LSTM构成。

Seq2seq模型是一种对机器翻译这样的任务有用的体系结构。LSTM只是神经网络的一个组成部分。比较两者的相对性能是不可能的。这就像是在问一个问题，为什么一辆汽车比它的引擎好，或者一座房子比内部管道好。

Seq2seq模型在他们的最新形式现在使用全新的技术，称为变压器，并可能不再使用LSTM，这可能被认为是老式的！我想这是任何所谓的“优越性”的另一个原因。

对于为什么LSTM比RNN更好的原因，如果你在谷歌上搜索“消失/爆炸梯度问题”，就会发现很多信息。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/63997

复制

相似问题

问为什么seq2seq模型优于简单的LSTM？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么seq2seq模型优于简单的LSTM？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么seq2seq模型优于简单的LSTM？
EN