我读过关于自动编码器的这篇文章,这是由安德鲁·吴介绍的。在这里,他用稀疏的正则化来减少联系,但稀疏性的公式与正则化的公式不同。所以,我想知道为什么我们不直接使用正则化术语,如模型NNs或logistic回归:(1/2 * m) * Theta^2?
发布于 2016-09-24 16:13:08
首先,让我们从一些命名约定开始,稀疏惩罚和L2权值惩罚都可以(而且经常)称为正则化。因此,问题应该是“为什么使用稀疏的正则化而不是简单的基于L2-范数的?”。对于这个问题,没有简单的答案,因为它不会深入到底层数学中,它会问如何更好地确保我们的网络创建一个良好的泛化表示--或多或少地将参数保持在固定的范围内(L2正则化,您建议的那个),或者确保不管我们作为网络的输入输入什么,它都会产生相对简单的表示(可能以拥有大量很少使用的权重/神经元为代价)。即使在这个抽象层次上,它也应该显示出这两个正则化者之间的定性差异,这将导致建立完全不同的网络模型。稀疏学期会更好吗?可能不是,在ML中几乎没有任何东西是“总是更好”。但是,对于一个自动编码器来说,这似乎是一个不那么具有启发性的选择--你想要有一种压缩--因此你强迫你的网络创建压缩表示,这实际上是……好吧..。压缩(小!),虽然使用L2正则化将简单地“压缩”表示的范数(因为点乘积通过权值与小范数不会增加太多的范数),但它仍然可以使用每个神经元的“微小位”,从而有效地建立一个复杂的表示(使用许多单位),但简单-与小的激活。
https://stackoverflow.com/questions/39671634
复制相似问题