
这篇论文介绍了一种名为xLSTM(Extended Long Short-Term Memory)的新型递归神经网络架构,旨在解决传统LSTM(Long Short-Term Memory)网络的一些局限性,并提高其在语言建模等任务中的性能。

论文:xLSTM: Extended Long Short-Term Memory 链接:https://arxiv.org/pdf/2405.04517
下面是对论文各部分的详细解读。

ct = ft * ct-1 + it * zt,其中ct是单元状态,ft是遗忘门,it是输入门,zt是经过激活函数的输入。it、遗忘门ft和输出门ot,控制信息的流动。













这篇论文的每个部分都详细介绍了xLSTM架构的设计原理、数学公式和实验结果,展示了其在语言建模任务中的潜力。