首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >视觉变压器ViT参数计数

视觉变压器ViT参数计数
EN

Data Science用户
提问于 2023-02-01 20:52:00
回答 1查看 372关注 0票数 0

“视觉变压器”论文a Image是由Dosovitskiy等人编写的16x16字的图片。(2021)包括下表:

有人能解释他们是如何得到参数计数的吗?或者我的计算是错误的?让我们看一下ViT-Base:每个注意层需要三个768 \times 768矩阵才能从输入生成Q, K, V。然后,将每个注意层的结果连在一起,并将其转换回需要另一个(12 \cdot 768) \times 768矩阵的D4

对于12个头,这等于每个MSA头的12 \cdot 768 \cdot 768 + 12 \cdot 768 \cdot 768 \approx 14M参数。并加入了MLP (2 * 768*3072 \approx 4.7M)的参数。

使用12层,这将意味着12 \cdot (14 + 4.7) \approx 224M参数而不是指定的86M?

EN

回答 1

Data Science用户

发布于 2023-02-01 21:09:16

我的计算是基于对自我注意机制的错误理解。注意是你所需要的,作者指出,当他们使用多头注意时,他们不会使用完整的768 \times 768矩阵,而是使用768 / h作为内部维数,其中h是头数。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/118226

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档