我正在从事一个玩具项目,以比较SGD和SGD+momentum优化器在MNIST数据上的性能。我创建了两个单元格块,一个用于SGD:optimizer = optim.SGD(net.parameters(), lr=0.001, momentum创建了另一个单元:
for epoch in range(10):#sim
def gradient_updates_momentum(cost, params, learning_rate, momentum):Compute updates for gradientis a sane value# List of update steps for each parameter
updates# However, we also "mix in&qu