我是深度学习游戏中的新手,我想知道为什么我们在VAE中展平编码器的最后一层,然后将展平的输出提供给线性层,然后线性层近似先验的位置和比例参数?我们不能只拆分卷积层的输出并直接从这里获得位置和比例吗,或者卷积捕获的空间信息会混淆比例和位置吗?
非常感谢!
发布于 2020-11-20 05:26:34
为什么我们要展平VAE中编码器的最后一层?
除了方便打印或报告之外,没有什么好的理由。如果在展平编码器之前,编码器的形状是BatchSize,2,2,32,将其展平为BatchSize,128就可以方便地列出每个样本的所有128个编码值。当解码器随后将其重塑为BatchSize时,2,2,32所有空间信息都被放回原来的位置。没有空间信息丢失。
当然,可以决定使用经过训练的VAE的编码器作为图像特征提取器。当我们有很多未标记的图像来训练VAE时,这实际上是非常有用的,但只有几个标记的图像。在大的未标记图像集上训练VAE后,编码器有效地成为特征提取器。然后我们可以将特征提取器输入到一个密集的层中,该层的目的是学习标签。在这种情况下,让编码器输出扁平化的数据集是非常有用的。
https://stackoverflow.com/questions/64649375
复制相似问题