各种优化器Optimizer原理:从SGD到AdamOptimizer
各种优化器Optimizer原理:从SGD到AdamOptimizer
- (一)优化器Optimizer综述:
- (二)基本梯度下降法
-
- 2.0 核心思想:
- 2.1 标准梯度下降法(GD,Gradient Descent)
-
- 2.1.1 数学公式:
- 2.1.2 优缺点:
- 2.2 批量梯度下降法(BGD, Batch Gradient Descent)
-
- 2.2.1 数学公式:
- 2.2.2 优缺点:
- 2.3 随机梯度下降法(SGD,Stochastic Gradient Descent)
-
- 2.3.1 数学公式:
- 2.3.2 优缺点:
- (三)动量优化法
-
- 3.0 核心思想:
- 3.1 标准动量优化方法(MomentumOptimizer)
-
- 3.1.1 数学公式:
- 3.1.2 优缺点:
- 3.2 牛顿加速梯度动量优化方法(NAG, Nesterov accelerated gradient)
-
- 3.2.1 数学公式:
- 3.2.2 优缺点:
- (四)自适应学习率优化算法
-
- 4.0 核心思想:
- 4.1 Adam算法(Adaptive moment estimation)
-
- 4.1.1 数学公式:
- 4.1.2 优缺点:
- 4.2 AdaGrad算法(Adaptive Gradient Algorithm)
-
- 4.2.1 数学公式:
- 4.2.3 优缺点:
- 4.3 RMSProp算法
-
- 4.3.1 数学公式:
- 4.3.2 优缺点:
- (五)各种优化器的可视化比较:
-
- (示例一)
- (示例二)
- (示例三)
- 关注我的公众号:
(一)优化器Optimizer综述:
优化器是神经网络训练过程中,进行梯度下降以寻找最优解的优化方法。不同方法通过不同方式(如附加动量项,学习率自适应变化等)侧重于解决不同的问题,但最终大都是为了加快训练速度。
对于这些优化器,有一张图能够最直接地表现它们的性能:
这里就介绍几种常见的优化器,包括其原理、数学公式、核心思想及其性能;
这些优化器可分为三大类:
- 基本梯度下降法,包括标准梯度下降法(GD, Gradient Descent),随机梯度下降法(SGD, Stochastic Gradient Descent)及批量梯度下降法(BGD, Batch Gradient Descent);
- 动量优化法,包括标准动量优化方法(MomentumOptimizer)、牛顿加速梯度动量优化方法(NAG, Nesterov accelerated gradient)等;
- 自适应学习率优化算法,包括AdaGrad算法,RMSProp算法,Adam算法等;
雷彪7707: 找到了,去b站搜索行人素材就有类似的啦
雷彪7707: 同问+10086
全栈小5: 非常不错的技术领域文章分享,解决了我在实践中的大问题!博主很有耐心,更有对知识的热忱和热爱,写了这么实用有效的分享,值得收藏点赞。支持【可达鸭的深度学习教程,博主这篇文章,值得一看】
killprocessplz: 2.2等式左边化简得倒数第二行少了ln
weixin_45312240: 请问测试集的标签是怎样,数据集中未曾提到