在Keras的LSTM实现中的默认模式(有状态=假)中,批处理中的所有样本都是独立的,状态不会从一个样本传播到下一个样本。根据我的理解,输入序列长度(L)是保持LSTM状态的唯一方法。但从理论上讲,这种操作方式与具有固定大小滑动输入窗口的前馈神经网络相比,将状态传播限制在固定的时间步长上。因此,神经网络的每个输入都是L个连续输入值的向量。
理论上,LSTM应该能够学习跨越1000个时间步骤的长期依赖关系。但是,这不需要L= 1000,因为没有办法捕获比输入序列长度更长的依赖项吗?我知道可以通过格式化输入数据来使用有状态模式,以便每个批的第一个示例是依赖的。我很难理解默认的LSTM模式比具有滑动窗口的前馈神经网络比输入数据有什么优势?
发布于 2020-12-17 14:59:32
前馈神经网络(FFNN)与任意递归网络(RNN,LSTM.)的主要区别是通过时间反复出现的联系。
使用带有滑动窗口的FFNN可能会帮助您找到某个地方,但是您的内部表示将只基于时间"t“的输入。而Recurent网也将利用以前看到的数据。
无状态与状态: --我不会详细介绍--已经有很多关于这个主题的好文章了,但是重要的是,批间的状态重置(而不是在每个示例之后),所以它确实在序列长度之外携带了一些常规的FFNN不会包含的信息。
https://stackoverflow.com/questions/44201268
复制相似问题