梯度消失是指在深度神经网络的反向传播训练过程中,误差梯度从输出层向输入层逐层传递时,其数值(范数)指数级衰减至接近于零的现象。这导致网络前部的层(尤其是靠近输入的层)的参数更新极其缓慢甚至停滞,从而严重阻碍网络的深度学习和性能提升。
要理解梯度消失,可以将其想象成一条信息传递的链条。在反向传播中,网络通过链式法则计算每一层参数的梯度。这个计算过程是逐层连乘的。当神经网络使用如Sigmoid或Tanh等饱和激活函数时,其导数值域被压缩在(0, 1] 的较小范围内。经过多层连续的连乘,多个小于1的数相乘,最终的乘积会迅速趋近于零。这就好比在多人传话游戏中,每经过一个人,信息就被削弱一点,传到最前面的人时,信息已经微乎其微,无法据此做出有效调整。因此,网络前部的权重几乎得不到有意义的更新,学习效率低下。

梯度消失问题深刻影响了神经网络架构的设计与选择,在以下场景中尤为关键:

理解梯度消失,通常需要关联以下核心概念:反向传播、链式法则、激活函数、梯度爆炸、残差网络、长短期记忆网络、权重初始化。

若想深入了解梯度消失问题的解决方案及其演变,建议从以下方向入手:首先,研读关于ReLU及其变体如何缓解梯度消失的文献;其次,理解残差连接和门控机制如何构建“梯度高速公路”,是攻克深度训练难题的关键;最后,通过对比不同权重初始化方法对训练初期梯度流动的影响,可以建立更全面的优化视角。

