文章/答案/技术大牛

发布

社区首页 >问答首页 >是否总是保证损失函数的收敛性？

问是否总是保证损失函数的收敛性？
EN

Data Science用户

提问于 2020-08-13 14:00:00

回答 2查看 1.4K关注 0票数 4

给定最佳学习率，下列哪一项是正确的？

(i)对于凸损失函数(即碗形)，保证批梯度下降最终收敛到全局最优，而不保证随机梯度下降。

(ii)对于凸损失函数(即具有碗形)，随机梯度下降保证最终收敛到全局最优，而批处理梯度则最终收敛到全局最优。

世系不是。

(3)对于凸损失函数(即碗形)，随机梯度下降和分批梯度下降最终收敛到全局最优。

(4)对于凸损失函数(即碗形)，既不保证随机梯度下降，也不保证分批梯度下降收敛到全局最优。

哪种选择是正确的，为什么？

loss-function

optimization

回答 2

Data Science用户

回答已采纳

发布于 2020-08-13 14:36:28

(iii)如你加入本条款

提供一个最优或小于最佳学习率的训练数据集。

为什么

当我们得到整个批次的梯度时，它是朝向全局极小值的。有了控制的LR，你就能到达那里。

在随机GD的情况下，单个梯度将不会朝向全局极小值，但它将是与每一组少数记录。很明显，它会看上去有点锯齿状。出于同样的原因，它可能会错过准确的最小点，并在它周围反弹。

在理论上更糟的情况下，如果在Class上对数据集进行排序，那么它将朝着一个类的方向移动，而另一个类很可能会忽略全局极小值。

手工机器学习参考摘录

另一方面，由于它的随机性(即随机性)，该算法比批梯度下降的规律要小得多:它的代价函数非但没有缓降到最小，反而会上下跳，只会平均下降。随着时间的推移，它最终将非常接近最小值，但一旦到达那里，它将继续反弹，永远不会稳定下来(参见图4-9)。因此，一旦算法停止，最终的参数值是好的，但不是最优的。“当使用随机梯度下降时，训练实例必须是独立的、同分布的(IID)，以确保参数平均地被拉向全局最优。确保这一点的一个简单方法是在培训期间对实例进行洗牌(例如，随机选择每个实例，或者在每个时代开始时对训练集进行洗牌)。如果不对实例进行洗牌--例如，如果实例是按标签排序的--那么SGD将首先对一个标签进行优化，然后再对另一个标签进行优化，以此类推，它将不会接近全局最小值。

票数 5

Data Science用户

发布于 2020-08-13 14:04:07

如果你知道随机梯度下降是批量梯度下降的特例，而不是知道它们都是或不是，那就很容易了。由于两者都没有选择，所以只能有(iii)。不知道他们为什么要会聚在一起。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/80232

复制

相似问题

问是否总是保证损失函数的收敛性？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否总是保证损失函数的收敛性？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否总是保证损失函数的收敛性？
EN