我想在Keras (优化器Adam)中训练一个CNN,并在每个ConvLayer和每个激活层之前使用批处理规范化。到目前为止,我主要看到的例子是进行培训的批量大小为32或64个样本。难道不应该确保每个时代的最后一批样品仍然包含32或64个样本,而不是明显少一些的样本?我的意思是,如果我有500个训练样本,50的批次是否比32件64件的批次要好呢?
发布于 2019-12-20 14:31:38
批量培训的主要原因是它需要较少的内存。由于您使用较少的样本来训练网络,所以整个培训过程需要更少的内存和速度。通常,网络使用小型批次的训练速度更快。这是因为我们在每次传播之后更新权重。
您在上一次迭代中留下的内容将被传播,即使它不能被分割。
https://datascience.stackexchange.com/questions/64851
复制相似问题