因此,我们的输入是一个由时间、高度、X和Y组成的四维张量。对于我们的早期融合模型和后期融合模型,我们使用Adam优化器从零开始训练,学习速率为1e-4。该模型是在4台Titan XP GPU服务器上训练的,批处理大小为12。我希望有人能提供洞察力。
因为他们的数据集不是开源的,所以我正在研究KITTI跟踪基准。
我想知道编码器的隐藏状态对于注意力网络有多有用。当我研究一个注意力模型的结构时,我发现一个模型通常是这样的:h: Encoder's hidden state which feeds forward to the next encoder's因此,输入的顺序对输出的顺序不一定重要,在注意力模型同时查看所有输入的情况下,从先前的输入中记忆的内容也不重要。你就不能直接把注意力放在x的嵌入上吗?