GPT-3's 1750亿参数中的具体参数是什么?这些是文本中的单词吗?在哪个模型上进行培训?
发布于 2021-09-20 20:32:08
与任何神经网络一样,GPT-3中的参数是层的权重和偏差.
从下表中摘自GTP-3纸

不同尺寸的GPT-3有不同的版本.一个版本的层越多,它的参数就越多,因为它有更多的权重和偏差。不管模型版本如何,它所用的单词都是3000亿个标记,标题引用似乎是从互联网上刮来的大约45 to的数据。
发布于 2021-09-21 06:45:30
这在ai.stackexchange.com中得到了回答:
参数是权值的同义词,这是大多数人对神经网络参数使用的术语(实际上,在我的经验中,这是机器学习者一般会使用的术语,而参数在统计学文献中更常见)。批次大小、学习速率等都是超参数,这基本上意味着它们是用户指定的,而权重则是学习算法通过训练所要学习的内容。
https://datascience.stackexchange.com/questions/102259
复制相似问题