我正在对CIFAR10数据集使用Soft Max Algorithm,并且对我的交叉熵损失图有一些问题。我设法使用该算法获得了40%的准确率,因此准确率正在提高。令人困惑的部分是解释交叉熵图的结果,因为它与我在网上看到的任何类似问题的图都不相似。我想知道是否有人能给出一些关于如何解释以下图表的见解。在y上是损失,在x上是批号。这两个图分别对应于批次大小1和100。
批量大小1:

批量大小为100:

发布于 2019-07-13 16:43:28
是什么导致了这些波动:
一个(小)批次只是CIFAR-10的一小部分。有时你选择简单的例子,有时你选择困难的例子。或者,在模型调整到前一批之后,看似简单的事情可能就很难了。毕竟,它被称为随机梯度下降。例如,参见the dicussion here。
解读这些情节:
批处理大小100:它明显改进了:-)我建议您取批处理的交叉熵的平均值,而不是将它们相加。
批处理大小1:前40k步似乎有一些改进。那么它可能只是一个振荡。你需要使用schedule the learning rate。
其他相关点:
Softmax不是一种算法,而是a function,它将任意值的向量转换为非负的向量,并求和为1,因此可以解释为概率。
这些情节非常笨拙。尝试使用小点大小的散点图。
绘图准确性与交叉熵(在不同的尺度上,具有较粗的时间分辨率),以获得他们之间的关系的感觉。
https://stackoverflow.com/questions/57013240
复制相似问题