在深度学习领域,众所周知,最强大的递归体系结构是序列到序列,或seq2seq,用于几乎任何任务(对时间序列的预测、机器翻译、文本生成)。
为什么?LSTM编解码结构的性能优于更规范的RNN的基本数学原因是什么?它是在产生密集的潜在表征吗?是关于相对较高的参数数吗?任何暗示都是感激的。
发布于 2019-11-29 15:12:27
编码器-译码器结构并不是简单的“更强大”比一个简单的LSTM。LSTM不能用于一般的序列转导任务(在其标准配置中)。另一方面,编码器-译码器结构是条件自回归模型,即它们在另一个序列上通过元素条件来生成序列元素。正是这种差异为简单的LSTM和编码器-解码器体系结构提供了完全不同的用例。
在基于LSTM的编解码结构中,需要通过信息从编码器传递到解码器的方式来区分不同的类型。最简单的形式是简单地将编码器LSTM的最后一个隐藏状态传递给第一个解码器LSTM;这意味着来自输入序列的所有信息都被“压缩”成一个固定长度的向量,这是已知的信息瓶颈。更复杂的形式包括使用注意机制,其中每个时间步骤的编码器隐藏状态被组合成每个解码器LSTM的不同以前的上下文向量;这里没有瓶颈,通常它们的结果要好得多。
发布于 2021-04-27 15:47:07
它们不是分离的,seq2seq模型可以在其体系结构中使用LSTM,即编码器和解码器都可以由深双向的LSTM构成。
Seq2seq模型是一种对机器翻译这样的任务有用的体系结构。LSTM只是神经网络的一个组成部分。比较两者的相对性能是不可能的。这就像是在问一个问题,为什么一辆汽车比它的引擎好,或者一座房子比内部管道好。
Seq2seq模型在他们的最新形式现在使用全新的技术,称为变压器,并可能不再使用LSTM,这可能被认为是老式的!我想这是任何所谓的“优越性”的另一个原因。
对于为什么LSTM比RNN更好的原因,如果你在谷歌上搜索“消失/爆炸梯度问题”,就会发现很多信息。
https://datascience.stackexchange.com/questions/63997
复制相似问题