【Keras】各个优化器的介绍与使用（动量优化，Nesterov， AdaGrad，RMSProp，Adam和Nadam优化）

最新推荐文章于 2024-04-29 11:18:46 发布

沐兮Krystal

最新推荐文章于 2024-04-29 11:18:46 发布

阅读量1.4k

点赞数

分类专栏： NLP 文章标签： keras 深度学习 python

本文链接： https://blog.csdn.net/GW_Krystal/article/details/127434443

版权

27 篇文章 16 订阅

订阅专栏

更快的优化器

梯度下降通过直接减去权重的成本函数 $J(\theta)$ 的梯度乘以学习率（ $\Delta _{\theta}J(\theta)$ ）来更新权重 $\theta$ 。它不关系较早的梯度是什么。
动量优化：在每次迭代时，它都会从动量向量 $m$ 中减去局部梯度（乘以学习率 $\eta$ ），并通过添加该动量来更新权重。
$\begin{array}{ll} 1.&m\gets \beta m - \eta \Delta_{\theta}J(\theta)\\ 2.&\theta \gets \theta + m \end{array}$
如果梯度保持恒定，则最终速度（即权重更新的最大大小）等于该梯度乘以学习率 $\eta$ 在乘以 $1/(1-\beta)$ 。
梯度下降相当快地沿着陡峭的斜坡下降，但是沿着山谷下降需要很长时间。相反，动量优化将沿着山谷滚得越来越快，知道达到谷底（最优解）。
在Keras实现动量优化：

optimizer = keras.optimizer.SGD(lr=0.001, momentum=0.9)

Nesterov加速梯度（Nersterov Accelerated Gradient，NAG）也称为Nesterov动量优化，它不是在局部位置 $\theta$ ，而是在 $\theta+\beta m$ 处，沿动量方向稍微提前处，测量成本函数的梯度。
$\begin{array}{ll} 1.&m\gets \beta m - \eta \Delta_{\theta}J(\theta + \beta m)\\ 2.&\theta \gets \theta + m \end{array}$
下图 $\Delta_1$ 表示在起点 $\theta$ 处计算的梯度， $\Delta_2$ 表示在位于 $\theta+\beta m$ 处计算的梯度，当动量推动权重跨越谷底时， $\Delta_1$ 继续推动越过谷底，而 $\Delta_2$ 推回谷底。这有助于减少震荡，因此NAG收敛更快。
使用NAG：

optimizer = keras.optimizer.SGD(lr=0.001, momentum=0.9, nesterov=True)

梯度下降从快速沿着最陡的坡度下降开始，该坡度没有指向全局最优解。AdaGrad算法通过沿着最陡峭的维度按比例缩小梯度向量来实现，更早地纠正其方向。
$\begin{array}{ll} 1.& s\gets s + \Delta_{\theta}J(\theta)\otimes \Delta_{\theta}J(\theta)\\ 2.& \theta-\eta \Delta_{\theta}J(\theta)\oslash \sqrt{s+\epsilon } \end{array}$
在如上显示的AdaGrad算法中：
$\otimes$ 符号表示逐个元素相乘，第一步将梯度的平方累加到向量 $s$ 中。每个 $s_i$ 累加关于参数 $\theta_i$ 的成本函数偏导数的平方。如果成本函数沿着第 $i$ 个维度陡峭，则 $s_i$ 将在每次迭代中变得越来越大。
$\oslash$ 符号表示逐个元素相除，第二步几乎与”梯度下降“相同，只是梯度向量按比例因子 $\sqrt{s+\epsilon }$ 缩小了。
该算法会降低学习率，但是对于陡峭的维度，它的执行速度比对缓慢下降的维度的执行速度要快，这称为自适应学习率。它几乎不需要调整学习率超参数 $\eta$ 。
在训练神经网络时候，它往往停止得太早，不适合用于训练深度神经网络，但对于线性回归之类的简单任务可能是有效的。

RMSProp算法通过只是累加最近迭代中的梯度（而不是自训练开始以来的所有梯度），通过在第一步中使用指数衰减来实现：
$\begin{array}{ll} 1.& s\gets \beta s + (1-\beta )\Delta_{\theta}J(\theta)\otimes \Delta_{\theta}J(\theta)\\ 2.& \theta-\eta \Delta_{\theta}J(\theta)\oslash \sqrt{s+\epsilon } \end{array}$
衰减率 $\beta$ 通常设置为0.9.
Keras有RMSprop优化器：

optimizer = keras.optimizer.RMSprop(lr=0.001, rho=0.9)

Adam代表自适应钜估计，结合了动量优化和RMSProp的思想：就像动量优化一样，它跟踪过去梯度的指数衰减平均值；想RMSProp一样，它跟踪过去平方梯度的指数衰减平均值。
动量衰减超参数 $\beta_1$ 通常被初始化为0.9，缩放衰减超参数 $\beta_2$ 通常被初始化为 0.999.
使用Keras来创建Adam优化器：

optimizer = keras.optimizer.Adam(lr=0.001, beta_1=0.9, beta_2=0.999)