学习率是机器学习与深度学习中的一项关键超参数,它定量地控制着模型在每次参数更新时的调整步长,直接决定了模型在优化过程中收敛的速度与最终性能的优劣。
我们可以将模型训练过程想象成一个人在山谷中寻找最低点(即损失函数的最小值)。这个人每走一步,就相当于模型根据当前计算的梯度(山坡最陡的方向)更新一次参数。学习率,正是这一步迈出的“长度”。

如果学习率设置得过高(步子迈得太大),可能会在最低点附近来回跨越,甚至导致损失值不降反增,模型无法收敛,这种现象称为“振荡”或“发散”。反之,如果学习率设置得过低(步子迈得太小),虽然走向稳定,但寻找最低点的过程会异常缓慢,消耗大量计算资源,并且可能陷入局部最优解而无法找到更好的解。因此,选择一个合适的学习率,或在训练过程中动态调整它,是优化算法的核心任务之一。

与学习率紧密相关的概念包括:梯度下降、优化器(如Adam、SGD)、学习率调度器、超参数调优、损失函数以及过拟合。

若想深入了解学习率的精妙之处,建议阅读深度学习经典教材中关于优化算法的章节,并动手实践不同学习率对简单模型(如线性回归)训练过程的影响。此外,研究论文《Cyclical Learning Rates for Training Neural Networks》中提出的周期性学习率方法,以及现代深度学习框架(如PyTorch、TensorFlow)官方文档中关于学习率调度器的使用,都是极佳的学习资源。

