import torch
import torch.nn as nn
import torch.optim as optim

# 假设模型、损失函数和优化器已经定义
model = MyModel()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)
accumulation_steps = 4
grads_acc = {}

# 模拟梯度累加的过程
for i, (inputs, labels) in enumerate(data_loader):
    # 模拟在每4个小批量后更新一次参数
    if i % accumulation_steps == 0:
        optimizer.zero_grad()  # 清空之前的梯度累加器
    else:
        for param in model.parameters():
            if param.grad is not None:
                grad_key = param.__class__.__name__ + str(param.id)
                if grad_key in grads_acc:
                    grads_acc[grad_key] += param.grad.data
                else:
                    grads_acc[grad_key] = param.grad.data.clone()
    
    outputs = model(inputs)
    loss = criterion(outputs, labels)
    loss.backward()  # 计算梯度并累加

    # 每累加4个小批量后，更新一次参数
    if (i + 1) % accumulation_steps == 0:
        for param in model.parameters():
            if param.grad is not None:
                grad_key = param.__class__.__name__ + str(param.id)
                param.grad = grads_acc[grad_key] / accumulation_steps
                grads_acc[grad_key].zero_()
        optimizer.step()  # 更新模型参数

在这个例子中，我们通过grads_acc字典来累加梯度。每处理一个小批量数据后，我们检查是否已经累加了4个小批量的梯度。如果是，我们就将累加的梯度除以4（累加步数），然后更新模型参数，并清零梯度累加器。这样，我们就能模拟使用大批量训练的效果，同时避免了因显存限制而无法直接使用大批量的问题。

为什么累加的梯度要除以4（累加步数），累加效果不更好吗

梯度累加后除以累加步数（例如4）的原因是为了模拟大批量数据的梯度更新效果，同时避免单个大批量数据带来的内存或显存压力。具体来说：

模拟大批量更新：在深度学习训练中，通常认为较大的批量大小可以提供更稳定和准确的梯度估计。通过梯度累加，我们可以在小批量上累积梯度，然后一次性更新权重，这相当于在一个大批量上计算梯度的效果。
避免内存或显存压力：如果直接使用大批量数据，可能会超出GPU的显存限制，导致无法训练。梯度累加允许我们使用小批量数据进行多次迭代，然后累积梯度进行一次更新，从而避免了大批量数据一次性加载带来的内存或显存压力。
保持梯度大小稳定：累加多个小批量的梯度可能会导致梯度过大，因为每次迭代都在累加梯度。除以累加步数可以使得累积的梯度与单个大批量的梯度大小相当，保持梯度更新的稳定性。
避免梯度爆炸或消失：在深度网络中，梯度可能会因为链式法则而在反向传播中逐渐消失或爆炸。通过梯度累加和平均，可以减少这种梯度不稳定的问题，使得训练过程更加稳定。

因此，累加的梯度除以累加步数是为了平衡梯度的大小，使得权重更新既能够反映大批量数据的信息，又能够保持更新的稳定性和训练的可行性。这种方法在实践中被证明是有效的，尤其是在资源受限的情况下。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S10

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S10

登录后参与评论

0 条评论

热度

大的batch size与小的batch size相比优缺点；梯度累加

大的batch size与小的batch size相比优缺点；梯度累加

大的batch size与小的batch size相比优缺点

大Batch Size的优点：

大Batch Size的缺点：

小Batch Size的优点：

小Batch Size的缺点：

梯度累加

梯度累加流程

简单举例说明

为什么累加的梯度要除以4（累加步数），累加效果不更好吗

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

大的batch size与小的batch size相比 优缺点；梯度累加

大的batch size与小的batch size相比 优缺点；梯度累加

大的batch size与小的batch size相比 优缺点

大Batch Size的优点：

大Batch Size的缺点：

小Batch Size的优点：

小Batch Size的缺点：

梯度累加

梯度累加流程

简单举例说明

为什么累加的梯度要除以4（累加步数），累加效果不更好吗

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

大的batch size与小的batch size相比优缺点；梯度累加

大的batch size与小的batch size相比优缺点；梯度累加

大的batch size与小的batch size相比优缺点