什么是鞍点 在维基中的定义如下: In mathematics, a saddle point or minimax point is a point on the surface of the graph Saddle point - Wikipedia [2]. Hessian matrix - Wikipedia [3]. 鞍点 - CSDN博客 [4].
8月8日,Saddle社区发起了关闭运营并清算资金的提案。根据DeFiLlama的数据,Saddle Finance中的TVL只有368万美元,治理代币$SDL的市值仅91.7万美元。 顶级VC支持,启动与空投吸引人气Saddle和Curve的一项重要区别在于Curve是用Vyper(也就是最近出现漏洞的编程语言)实现的,而Saddle将这些代码移植到了Solidity,这也使Saddle 在启动前,Saddle也经过了包括Certik、Quantstamp、OpenZeppelin在内的多家安全机构的审计。Saddle在项目启动时并未发行治理代币,但基本确定会发币。 这就为Saddle在上线初期和空投期间带来了很高的呼声。 在Saddle社区中,大多数人都同意清算。
Disentangling the Effects of Adaptive Learning Rate and Momentum 本博客暂略公式推导 Summary 一个好的优化器,应该能够容易的逃离saddle (鞍点),在遇到flat minima时留下;反之,一个坏的优化器,难以逃离saddle,却不乐于呆在flat minima(注意不是逃离flat minima,因为如果一个空间可以被称为flat minima Adai通过解偶Grad以及Momentum,让模型能够更快的逃离saddle points,更倾向选择flat minima而不是sharp minima. 附近都是近似于 Hessian 独立和各向同性(不怎么受batch控制)的,所以Adam很容易逃出saddle;而从propositon 2可以看出,对比定理三,Adam的方向受hessian的控制更小 作者仅给出了实验结果: 在三轮实验中,adai/adaiw的standart deviations是最小的,这意味着adai能够更容易的找到一个minima而不是困在saddle处。
2.SADDLE HEIGHT | 车座高度 Adjusting your bike’s saddle height is a simple way to improve the comfort 3.SADDLE FORE/AFT POSITION | 车座前后位置 The seat also adjusts forward and backward, so that your Sit on the saddle in riding position, with your hands on the handlebars and the balls of your feet over
我们可以从正交的两个方面来看这个点,以平行于坐标轴XOZ平面和YOZ平面的过这个红点的两个平面对这个图形进行截取,可以发现,在一个方向上它是极大值,在另一个方向上它是极小值,这种点就叫鞍点(Saddle 原文如下,大家自行体会:In a domain of one dimension, a saddle point is a point which is both a stationary point 包含一个或以上鞍点的面就叫做Saddle surface。 Descent的性能与正确率,而事实上即便在其他算法中,鞍点往往比Local minimum更令人头疼,而关于如何解决、或者说避开鞍点呢,请看这篇文章(Andrew Ng的导师写的):How to Escape Saddle
Dauphin等人认为实践中的困难来自saddle points而非local minima。所谓saddle points是指那些维度梯度不一致的点。 这些saddle points经常被一个相等误差的平原包围,导致SGD很难摆脱,因为梯度在所有方向都近似于0。 梯度下降优化算法 下面我们会概述一些深度学习社区广泛采用的以解决上述挑战的算法。 所谓saddle point也就是某个维度是positive slope,其他维度为negative lope。前文中我们已经提及了它给SGD所带来的困难。 注意到SGD、Momentum和NAG很难打破对称,虽然后两者最后还是逃离了saddle point。 SGD在更加依赖于鲁棒的初始化和模拟退火(annealing schedule)并可能被saddle points而不是局部极小值困住。
“deadly_webcap”,“deathcap”,“deer_shield”,“destroying_angel”,“devils_bolete”,“dog_stinkhorn”,“dryads_saddle ”,“dusky_puffball”,“dyers_mazegill”,“earthballs”,“egghead_mottlegill”,“elfin_saddle”,“fairy_ring_champignons ,“weeping_widow”,“white_dapperling”,“white_domecap”,“white_false_death_cap”,“white_fibrecap”,“white_saddle deathcap 15 51 deer_shield 15 52 destroying_angel 14 53 devils_bolete 8 54 dog_stinkhorn 15 55 dryads_saddle 15 56 dusky_puffball 15 57 dyers_mazegill 15 58 earthballs 15 59 egghead_mottlegill 15 60 elfin_saddle
icepack 坎普斯背包:krampus_sack 糖果袋:candybag 羽毛笔:featherpencil 便便蓝:fertilizer 取鞍器:saddlehorn 鞍:saddle_basic 浴血战鞍:saddle_war 闪亮之鞍:saddle_race 刷子:brush 舐盐器:saltlick ---------- 武器 长矛:spear 瓦丝格雷斯矛:spear_wathgrithr
Dauphin等人认为实践中的困难来自saddle points而非local minima。所谓saddle points是指那些维度梯度不一致的点。 这些saddle points经常被一个相等误差的平原包围,导致SGD很难摆脱,因为梯度在所有方向都近似于0。 梯度下降优化算法 下面我们会概述一些深度学习社区广泛采用的以解决上述挑战的算法。 所谓saddle point也就是某个维度是positive slope,其他维度为negative lope。前文中我们已经提及了它给SGD所带来的困难。 注意到SGD、Momentum和NAG很难打破对称,虽然后两者最后还是逃离了saddle point。 SGD在更加依赖于鲁棒的初始化和模拟退火(annealing schedule)并可能被saddle points而不是局部极小值困住。
如果一个 stationary point 既不是局部极大值也不是局部极小值点,它就称之为 saddle point,为了确定一个给定的 stationary point 是不是一个局部极小值点,我们需要在泰勒展开中包含二阶项 如果 Hs 是 indefinite(同时具有正负特征值),xs 是一个 saddle point 111
在这种情况下,(0,0)点叫作该函数的鞍点(saddle point)。 为了区分这种情况,我们需要考虑二阶导数∇2f(x)——一个n×n的矩阵(通常称作Hessian矩阵),第i,j项等于 ? 。 对于非凸优化,人们直观地认为,固有的噪声有助于收敛,因为它有助于当前点远离鞍点(saddle points)。这并不是bug,而是一大特色! ? 这样的退化结构往往展示了一个更为复杂的鞍点(如 monkey saddle (猴鞍),图(a))或一系列连接的鞍点(图(b)(c))。 原文: Escaping from Saddle Points(http://www.offconvex.org/2016/03/22/saddlepoints/) 译者:刘帝伟 审校:刘翔宇 责编:
Server $ croc --relay 127.0.0.1:3001 send ~/Downloads/data.csv Sending 'data.csv' (632.9 kB) Code is: saddle-origin-horizon On the other computer run croc --relay 127.0.0.1:3001 saddle-origin-horizon 可以看到只需要加上 --relay 127.0.0.1
Server $ croc --relay 127.0.0.1:3001 send ~/Downloads/data.csv Sending 'data.csv' (632.9 kB) Code is: saddle-origin-horizon On the other computer run croc --relay 127.0.0.1:3001 saddle-origin-horizon 可以看到只需要加上 --relay 127.0.0.1
准确地来说,大部分梯度为零的“最优点”并不是这些凹槽处,而是形如右边所示的马鞍状,称为saddle point。 特别是在神经网络中参数很多的情况下,所有参数梯度为零的点很可能都是右边所示的马鞍状的saddle point,而不是左边那样的local optimum。 在plateaus上梯度很小,前进缓慢,到达saddle point需要很长时间。 到达saddle point后,由于随机扰动,梯度一般能够沿着图中绿色箭头,离开saddle point,继续前进,只是在plateaus上花费了太多时间。
Server $ croc --relay 127.0.0.1:3001 send ~/Downloads/data.csv Sending 'data.csv' (632.9 kB) Code is: saddle-origin-horizon On the other computer run croc --relay 127.0.0.1:3001 saddle-origin-horizon 可以看到只需要加上 --relay 127.0.0.1
Jordan 带领的一个跨多所大学和研究院的团队发表了一篇论文《How to Escape Saddle Points Efficiently》,提出了最基本的算法——梯度下降的一个简单变种,并证明该算法虽形式简单 目前的文献已经研究过两种加入随机性的简单方法: 间歇的扰动:Ge、Huang、Jin 和 Yuan 2015 年的论文《Escaping From Saddle Points --- Online Stochastic 更进一步,我们将最后一类鞍点称为严格鞍点(strict saddle points),他们满足 ? 。 ? 尽管非严格鞍点在谷底可能是平坦的,但严格鞍点要求至少有一个方向的曲率是严格为负的。 Jason Lee、Barnabas Poczos和Aarti Singh合作共同完成的研究《Gradient Descent Can Take Exponential Time to Escape Saddle 原文链接:http://bair.berkeley.edu/blog/2017/08/31/saddle-efficiency/ 本文为机器之心编译,转载请联系本公众号获得授权。
Dauphin et al. [19] argue that the difficulty arises in fact not from local minima but from saddle points These saddle points are usually surrounded by a plateau of the same error, which makes it notoriously Image 6 shows the behaviour of the algorithms at a saddle point, i.e. a point where one dimension has Image 5: SGD optimization on loss surface contours Image 6: SGD optimization on saddle point ? Identifying and attacking the saddle point problem in high-dimensional non-convex optimization. arXiv
批次与动量 三、自动调整学习速率 四、损失函数的影响 五、批次标准化 五、总结 一、局部最小值与鞍点 Optimization Fails because … local minima(局部最小值) saddle
准确地来说,大部分梯度为零的“最优点”并不是这些凹槽处,而是形如右边所示的马鞍状,称为saddle point。 特别是在神经网络中参数很多的情况下,所有参数梯度为零的点很可能都是右边所示的马鞍状的saddle point,而不是左边那样的local optimum。 ? 在plateaus上梯度很小,前进缓慢,到达saddle point需要很长时间。 到达saddle point后,由于随机扰动,梯度一般能够沿着图中绿色箭头,离开saddle point,继续前进,只是在plateaus上花费了太多时间。 ?
哪一个好train,一目了然 归一化方法: 总结: Gradient Decent 是机器学习、深度学习求解Optimal问题的“普世”方法,但是也会遇到很多问题,例如local minima 和 saddle