梯度下降公式如下:
梯度本身指向最陡峭的上升方向,因此,通过减去梯度向相反的方向前进是合乎逻辑的。但是,除了方向,梯度也有一个幅度,实际上没有任何关于最优路径的信息。
我的问题是,这是否被认为是梯度下降的弱点和学习率的原因?
发布于 2018-12-26 15:03:40
这个数值并没有说明通向最优的路径,事实上,梯度体面中的任何东西都不知道最优,而且算法只在局部信息上进行中继。然而,如果您假设可用的解决方案的空间是相对平滑的,并且不包含急剧下降,您可以将梯度的大小作为对当前环境的信心的分数。
因此,如果梯度幅度很高,你很肯定你不是一个好的解决方案,你可以迈出很大的步伐,如果幅度很小,比你更接近一个好的解决方案,应该做更小的改变。
学习速率只是一个超参数,它控制着我们调整网络权重的程度,即损失梯度。它也可以从你对周围解决方案空间的信心来看待。它还可以帮助模型更深入地收敛到一个特定的最小点(因为我们在训练期间降低了学习速度)。
https://datascience.stackexchange.com/questions/43142
复制相似问题