GPT-3有1,750亿个参数,需要使用~3.114 * 10^{23}触发器,在10K特斯拉V100 GPT上训练大约需要一个月。人们普遍认为,大脑的参数相当于100万亿左右。我想知道训练这样大小的变压器需要什么样的计算量。难道这仅仅是~10^3倍的失败吗?
一般来说,如何计算变压器、神经网络、CNN和其他流行的深度学习模型的模型参数所需的尺度?
发布于 2022-06-28 07:24:15
最近使用像兰卜达这样的变压器的模型有不到100万亿的参数,而且它的回答比大多数人要好得多(如果不是全部的话,因为它有大量的知识)。
我的意思是,人脑和人工大脑是不可比拟的,但这并不意味着在一个人工大脑中有100万亿个参数就相当于人类大脑。
那么,参数和触发器之间的相关性确实是相当线性的。我在一篇文章中创建了一个表格,以粗略估计数量级,因为关于这个主题的信息很少。

https://datascience.stackexchange.com/questions/112189
复制相似问题