首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何解释卷积神经网络中的梯度范数?

如何解释卷积神经网络中的梯度范数?
EN

Stack Overflow用户
提问于 2018-10-30 14:49:47
回答 1查看 1.1K关注 0票数 2

这可能是基本的事情,但我无法理解计算梯度规范的解释。

例如,我正在使用体系结构进行二进制分割,方法是将多个U-网与每个网络都有类似于Resnet34的编码器。我训练了这个网络,得到了梯度平均值和范数,如下所示:

  • conv1的平均年级为-1.77767194275e-14。
  • conv1的范数等级为2.57230658463e-05。
  • layer1的平均梯度为1.27381299952e-11。
  • layer1的范数等级为0.000390226632589
  • layer2的平均梯度为-2.3107595698e-11。
  • layer2的范数等级为0.000265486567514

所有的价值似乎都很低。我不能得到,我是否认为他们是消失梯度问题,或梯度可以真的很低,取决于问题。

如果梯度可以很低,那么检查消失梯度问题的最佳方法是什么?

请提供任何建议来分析梯度数据。提前感谢!

EN

回答 1

Stack Overflow用户

发布于 2018-10-30 16:11:17

低平均值是没有问题的。当然,某些问题可能导致低值,但低值并不意味着问题本身。此外,我认为梯度的范数并不太低。

在这种情况下,我们应该重新思考是什么导致了梯度问题的消失。当我们使用ReLU作为激活函数时,梯度不会消失(但它们可以是零)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53067003

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档