通常在RNN中,只使用先前的输入和隐藏状态来计算输出。但是,如果我们使用多达n个前面的步骤,会发生什么?本质上是将n元语法输入到神经网络中?由于n-gram在短文本生成中通常相当好,因此这种添加的信息将减轻隐藏状态下记忆短期知识的负担,并将重点放在文本的上下文方面。
这看起来很简单,但我找不到任何实现了这一点的论文。
发布于 2021-02-04 21:01:24
我认为最接近你所描述的是自动编码器中的注意力机制。其中密集层基本上控制解码层应该使用哪些编码的隐藏状态,而不是仅依赖于最后的隐藏状态。
如果你想阅读更多内容,这里有paper。
这种体系结构旨在规避在长序列中的一个隐藏状态中可以存储多少信息的限制。
https://stackoverflow.com/questions/66043890
复制相似问题