首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否总是保证损失函数的收敛性?

是否总是保证损失函数的收敛性?
EN

Data Science用户
提问于 2020-08-13 14:00:00
回答 2查看 1.4K关注 0票数 4

给定最佳学习率,下列哪一项是正确的?

(i)对于凸损失函数(即碗形),保证批梯度下降最终收敛到全局最优,而不保证随机梯度下降。

(ii)对于凸损失函数(即具有碗形),随机梯度下降保证最终收敛到全局最优,而批处理梯度则最终收敛到全局最优。

世系不是。

(3)对于凸损失函数(即碗形),随机梯度下降和分批梯度下降最终收敛到全局最优。

(4)对于凸损失函数(即碗形),既不保证随机梯度下降,也不保证分批梯度下降收敛到全局最优。

哪种选择是正确的,为什么?

EN

回答 2

Data Science用户

回答已采纳

发布于 2020-08-13 14:36:28

(iii)如你加入本条款

提供一个最优或小于最佳学习率的训练数据集。

为什么

当我们得到整个批次的梯度时,它是朝向全局极小值的。有了控制的LR,你就能到达那里。

在随机GD的情况下,单个梯度将不会朝向全局极小值,但它将是与每一组少数记录。很明显,它会看上去有点锯齿状。出于同样的原因,它可能会错过准确的最小点,并在它周围反弹。

在理论上更糟的情况下,如果在Class上对数据集进行排序,那么它将朝着一个类的方向移动,而另一个类很可能会忽略全局极小值。

手工机器学习参考摘录

另一方面,由于它的随机性(即随机性),该算法比批梯度下降的规律要小得多:它的代价函数非但没有缓降到最小,反而会上下跳,只会平均下降。随着时间的推移,它最终将非常接近最小值,但一旦到达那里,它将继续反弹,永远不会稳定下来(参见图4-9)。因此,一旦算法停止,最终的参数值是好的,但不是最优的。“当使用随机梯度下降时,训练实例必须是独立的、同分布的(IID),以确保参数平均地被拉向全局最优。确保这一点的一个简单方法是在培训期间对实例进行洗牌(例如,随机选择每个实例,或者在每个时代开始时对训练集进行洗牌)。如果不对实例进行洗牌--例如,如果实例是按标签排序的--那么SGD将首先对一个标签进行优化,然后再对另一个标签进行优化,以此类推,它将不会接近全局最小值。

票数 5
EN

Data Science用户

发布于 2020-08-13 14:04:07

如果你知道随机梯度下降是批量梯度下降的特例,而不是知道它们都是或不是,那就很容易了。由于两者都没有选择,所以只能有(iii)。不知道他们为什么要会聚在一起。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/80232

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档