集合变压器的优点是能够处理可变大小的输入.然而,我认为一个普通的变压器可以做同样的事情。这两种型号有什么区别,你为什么要用一种而另一种呢?
设置转换器不需要位置编码吗?它只是更模块化和更容易选择你想要使用的部分吗?
这里有一套变压器纸和代码供参考。
发布于 2022-01-28 00:02:37
变压器是一种在一组元素上工作的模型。它的传统用法是单词序列,它要求在每个元素中增加一个位置嵌入,使得模型不是置换不变的。默认情况下(不添加此位置嵌入),转换器是置换不变的。
变压器是一个由N个注意块组成的模型体系结构,然后是单元级MLP (通常是残余连接)。这在集合上工作,因为它的置换不变性质。对于序列唯一不同的地方是,您需要注入有关元素位置的信息,方法是在输入端向标记添加位置嵌入(使其非置换-不变)。所以是的,你可以(你可以说模型是一样的,只有预处理步骤不同)。
https://stackoverflow.com/questions/70387846
复制相似问题