我看了LeNet-5的最初实现,我注意到不同来源的差异。维基百科指出,使用的非线性在每一层都是相同的乙状结肠,一些博客文章使用Tanh和sigmoid的组合,而安德鲁·吴( Andrew )说它使用的是一些粗糙的非线性,而今天没有人用它来命名它。我看了原始的论文,但是它大约有50页长,图表没有提到显式使用的激活函数。我搜索了一下,sigmoid函数就在激活的上下文中被提到了,而tanh函数被看作是一个压缩函数。我不确定这是相同的还是不同的,它在引用乙状结肠的时候使用了其他的术语。有人知道这是怎么回事吗?
发布于 2021-06-01 11:19:11
在原纸中有一些澄清性的陈述:
将四个输入加到S2中的一个单元中,然后乘以一个可训练系数,再加到可训练偏差中。结果通过σ函数传递。(第7页,col.1)
在这里,乙状结肠函数是通用的。
就像经典的神经网络一样,层次上的单位直到F6计算。这个加权和..。然后通过乙状结肠压缩函数传递。压缩函数是一个缩放的双曲切线。(第8页,col.1 -详情请参阅附录A)
这里,"sigmoid压缩函数“用于表示一个缩放的" tanh”(请记住,tanh是一个重新标度的逻辑sigmoid函数)。
因此,我认为维基百科使用同样的“σ函数”的建议是正确的。为了精确起见,应该使用tanh。
https://datascience.stackexchange.com/questions/94702
复制相似问题