“视觉变压器”论文a Image是由Dosovitskiy等人编写的16x16字的图片。(2021)包括下表:

有人能解释他们是如何得到参数计数的吗?或者我的计算是错误的?让我们看一下ViT-Base:每个注意层需要三个768 \times 768矩阵才能从输入生成Q, K, V。然后,将每个注意层的结果连在一起,并将其转换回需要另一个(12 \cdot 768) \times 768矩阵的D4。
对于12个头,这等于每个MSA头的12 \cdot 768 \cdot 768 + 12 \cdot 768 \cdot 768 \approx 14M参数。并加入了MLP (2 * 768*3072 \approx 4.7M)的参数。
使用12层,这将意味着12 \cdot (14 + 4.7) \approx 224M参数而不是指定的86M?
发布于 2023-02-01 21:09:16
我的计算是基于对自我注意机制的错误理解。注意是你所需要的,作者指出,当他们使用多头注意时,他们不会使用完整的768 \times 768矩阵,而是使用768 / h作为内部维数,其中h是头数。
https://datascience.stackexchange.com/questions/118226
复制相似问题