这可能是基本的事情,但我无法理解计算梯度规范的解释。
例如,我正在使用体系结构进行二进制分割,方法是将多个U-网与每个网络都有类似于Resnet34的编码器。我训练了这个网络,得到了梯度平均值和范数,如下所示:
所有的价值似乎都很低。我不能得到,我是否认为他们是消失梯度问题,或梯度可以真的很低,取决于问题。
如果梯度可以很低,那么检查消失梯度问题的最佳方法是什么?
请提供任何建议来分析梯度数据。提前感谢!
发布于 2018-10-30 16:11:17
低平均值是没有问题的。当然,某些问题可能导致低值,但低值并不意味着问题本身。此外,我认为梯度的范数并不太低。
在这种情况下,我们应该重新思考是什么导致了梯度问题的消失。当我们使用ReLU作为激活函数时,梯度不会消失(但它们可以是零)。
https://stackoverflow.com/questions/53067003
复制相似问题