文章/答案/技术大牛

发布

社区首页 >问答首页 >视觉变压器ViT参数计数

问视觉变压器ViT参数计数
EN

Data Science用户

提问于 2023-02-01 20:52:00

回答 1查看 372关注 0票数 0

“视觉变压器”论文a Image是由Dosovitskiy等人编写的16x16字的图片。(2021)包括下表：

有人能解释他们是如何得到参数计数的吗?或者我的计算是错误的？让我们看一下ViT-Base:每个注意层需要三个768 \times 768矩阵才能从输入生成Q, K, V。然后，将每个注意层的结果连在一起，并将其转换回需要另一个(12 \cdot 768) \times 768矩阵的D4。

对于12个头，这等于每个MSA头的12 \cdot 768 \cdot 768 + 12 \cdot 768 \cdot 768 \approx 14M参数。并加入了MLP (2 * 768*3072 \approx 4.7M)的参数。

使用12层，这将意味着12 \cdot (14 + 4.7) \approx 224M参数而不是指定的86M？

computer-vision

transformer

attention-mechanism

deep-learning

回答 1

Data Science用户

发布于 2023-02-01 21:09:16

我的计算是基于对自我注意机制的错误理解。注意是你所需要的，作者指出，当他们使用多头注意时，他们不会使用完整的768 \times 768矩阵，而是使用768 / h作为内部维数，其中h是头数。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/118226

复制

相似问题

问视觉变压器ViT参数计数
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问视觉变压器ViT参数计数EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问视觉变压器ViT参数计数
EN