给定最佳学习率,下列哪一项是正确的?
(i)对于凸损失函数(即碗形),保证批梯度下降最终收敛到全局最优,而不保证随机梯度下降。
(ii)对于凸损失函数(即具有碗形),随机梯度下降保证最终收敛到全局最优,而批处理梯度则最终收敛到全局最优。
世系不是。
(3)对于凸损失函数(即碗形),随机梯度下降和分批梯度下降最终收敛到全局最优。
(4)对于凸损失函数(即碗形),既不保证随机梯度下降,也不保证分批梯度下降收敛到全局最优。
哪种选择是正确的,为什么?
发布于 2020-08-13 14:36:28
(iii)如你加入本条款
提供一个最优或小于最佳学习率的训练数据集。
为什么
当我们得到整个批次的梯度时,它是朝向全局极小值的。有了控制的LR,你就能到达那里。
在随机GD的情况下,单个梯度将不会朝向全局极小值,但它将是与每一组少数记录。很明显,它会看上去有点锯齿状。出于同样的原因,它可能会错过准确的最小点,并在它周围反弹。
在理论上更糟的情况下,如果在Class上对数据集进行排序,那么它将朝着一个类的方向移动,而另一个类很可能会忽略全局极小值。
手工机器学习参考摘录
另一方面,由于它的随机性(即随机性),该算法比批梯度下降的规律要小得多:它的代价函数非但没有缓降到最小,反而会上下跳,只会平均下降。随着时间的推移,它最终将非常接近最小值,但一旦到达那里,它将继续反弹,永远不会稳定下来(参见图4-9)。因此,一旦算法停止,最终的参数值是好的,但不是最优的。“当使用随机梯度下降时,训练实例必须是独立的、同分布的(IID),以确保参数平均地被拉向全局最优。确保这一点的一个简单方法是在培训期间对实例进行洗牌(例如,随机选择每个实例,或者在每个时代开始时对训练集进行洗牌)。如果不对实例进行洗牌--例如,如果实例是按标签排序的--那么SGD将首先对一个标签进行优化,然后再对另一个标签进行优化,以此类推,它将不会接近全局最小值。
发布于 2020-08-13 14:04:07
如果你知道随机梯度下降是批量梯度下降的特例,而不是知道它们都是或不是,那就很容易了。由于两者都没有选择,所以只能有(iii)。不知道他们为什么要会聚在一起。
https://datascience.stackexchange.com/questions/80232
复制相似问题