深度学习中的分布式训练
1. 为什么需要分布式训练
随着人工智能与深度学习的发展,大规模和超大规模的模型越来越受到业界的推崇。以 NLP 行业为例,从最开始的 Bert-base 只有 1 亿左右的参数量,到千亿级别的 GPT-3,再到今年 6 月发布的目前全球最大预训练模型“悟道 2.0”,参数规模达到惊人的 1.75 万亿,整个业界都由一种向更大模型发展的趋势。面对如此庞大的模型,必然也需要庞大的数据量才能进行训练,如果没有分布式训练的大算力加持,一个 Epoch 可能就要训练到天荒地老。抛开业界淬炼超大模型的场景...