我已经阅读了Swin变压器的原始论文,并且很好地理解了它,除了最后一步:分类。在本文中,这是完全忽略了,没有博客文章谈论这种架构,以及它。
实际上,这是如何做到的呢?变压器输出一系列向量(阵列),所以我们不能仅仅应用FC层来获得概率向量。不同的输出向量是连接在一起(扁平的)并被馈送到FC,还是像标准的变压器结构一样被送至解码器?
发布于 2023-05-06 17:44:30
这样做有很多种方法,而提交人并没有故意具体说明这一点。我们可以以不同的方式聚合输出向量,或者仅仅选择第一个位置(比如在BERT中)来传递到MLP上。
https://datascience.stackexchange.com/questions/121334
复制相似问题