深度学习中常用优化器（SGD, Momentum, Nesterov Momentum, AdaGrad, RMS Prop, Adam）的伪代码和对比

ZhuojunChen

已于 2022-06-27 10:27:42 修改

阅读量4.5k

收藏 26

点赞数 7

分类专栏：神经网络文章标签：深度学习机器学习人工智能

于 2022-03-12 14:49:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/qq_39332551/article/details/123440318

版权

神经网络专栏收录该内容

8 篇文章 1 订阅

订阅专栏

在深度学习中，优化器是其重要组成部分，本文来介绍一下常用优化器（SGD, Momentum, Nesterov Momentum, AdaGrad, RMS Prop, Adam）的伪代码并对他们进行对比。

1. SGD

SGD的伪代码如下：

SGD的梯度更新公式简单，采样用的是小样本，训练速度快，但由于是成之字形下降，在一些情况下效率很低。

2. (SGD with) Momentum

伪代码如下：

和SGD相比，带动量的SGD主要是借助物理学中动量的概念，在下降时保留一部分之前的方向和速度，以此来抑制震荡。若当前的梯度方向与累积的历史梯度方向一致，当前梯度就会被加强，使得这一步的下降幅度变大，反之也成立。具体到代码，就是新引入了一个变量v，这个v就是累计的历史梯度，以这个作为参数更新的值。下图就是一个带动量的SGD的梯度下降示意图：

3. Nesterov Momentum

对于带动量的SGD，我们可以想象成是一个小球沿着斜坡左歪右撞地盲目滚下，如果想让这个小球变得不那么盲目一点，Nesterov Momentum应运而生。

对比于带动量的SGD，该方法加了一个校正因子，在求梯度的时候，考虑进了预估的下一个位置，如下图所示：

4. AdaGrad:

之前的几种方法的学习率是始终不变的，以下的几种方法主要是通过更新学习率来起到优化的目的。AdaGrad的伪代码如下：

相比于前面的优化方法，AdaGrad的改动主要是在标绿部分。我们知道，学习率小的时候下降的步子小，学习率大的时候下降的步子大， AdaGrad引入了累计因子r，用平方梯度来作累积，并将它的开根号作为学习率的除数，这么做的目的是为了在梯度较为平缓的时候（此时平方梯度较小），可以获得比较大的学习率，走的快一些，以此来提高效率，但是在日常使用中，会发现这种方法有的时候会使得学习率在一段时间的迭代后变得过小，因此还需要继续改进。

5. The RMS Prop Algorithm

伪代码如下：

针对AdaGrad中提到的问题，RMS Prop进行了划绿处的改进，通过添加一个衰减系数，来控制历史信息获得的多少，从而使得学习率的减小变得可控。

此外，还可以将RMS Prop和Nesterov Momentum结合起来，伪代码如下图：

6. Adam

Adam类似于将RMSprop和momentum相结合，利用了二者的优点，伪代码如下：

其中标绿处为相比之前有改动的地方，Adam属于一个比较成熟的优化器，在很多情况下都可以适用。

7
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
深度学习中常用优化器（SGD, Momentum, Nesterov Momentum, AdaGrad, RMS Prop, Adam）的伪代码和对比

在深度学习中，优化器是其重要组成部分，本文来介绍一下常用优化器（SGD, Momentum, Nesterov Momentum, AdaGrad, RMS Prop, Adam）的伪代码并对他们进行对比。1. SGDSGD的伪代码如下：SGD的梯度更新公式简单，采样用的是小样本，训练速度快，但由于是成之字形下降，在一些情况下效率很低。2. (SGD with) Momentum伪代码如下：和SGD相比，带动量的SGD主要是借助物理学中动量的概念，在下降时保留一部分之前的
复制链接

扫一扫

ZhuojunChen CSDN认证博客专家 CSDN认证企业博客

23: 原创

30万+: 周排名

81万+: 总排名

6万+: 访问

: 等级

498: 积分

883: 粉丝

55: 获赞

22: 评论

311: 收藏

写文章

热门文章

pandas输出csv不带自动添加的行和列的序号 12395
【神经网络-数据分类】利用卷积神经网络（CNN）对数据进行分类 6409
C++ 读取csv文件（复制即可用） 6346
PyTorch中激活函数GELU、Swish、Mish函数的实现 4976
深度学习中常用优化器（SGD, Momentum, Nesterov Momentum, AdaGrad, RMS Prop, Adam）的伪代码和对比 4551

分类专栏

神经网络 8篇
数据挖掘 7篇
日常小技巧 6篇
力扣做题 5篇
踩坑笔记 1篇
数据库 1篇

最新评论

C++ 读取csv文件（复制即可用）
Ex-Monster: 如果有一个单元格里面有逗号，那以逗号分割好像就有问题
C++ 读取csv文件（复制即可用）
飞行小菜鸟: 牛，完美解决我的问题
C++ 读取csv文件（复制即可用）
ZhuojunChen: 这个是文件路径
C++ 读取csv文件（复制即可用）
m0_71355525: 引用「D:\\aa\\bb.csv」这个路径是怎么找到的
“FindPython3.cmake“找不到的解决方案
君子傲つ九夏青枫醉三冬。: 感谢非常棒！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

最新文章

C++ 读取csv文件（复制即可用）
PyTorch中激活函数GELU、Swish、Mish函数的实现
PyTorch中Module类的使用方法，模型中参数的添加与获取以及保存与载入模型

目录

目录

分类专栏

神经网络 8篇

数据挖掘 7篇

日常小技巧 6篇

力扣做题 5篇

踩坑笔记 1篇

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

PHP网站源码广州关键词按天计费南澳阿里店铺运营横岗关键词排名包年推广南澳百度关键词包年推广坪山seo网站优化光明网络营销西乡模板推广坪山网站关键词优化布吉网站关键词优化木棉湾网站seo优化观澜网站推广系统荷坳模板网站建设观澜网站改版大鹏英文网站建设坪地网站排名优化深圳关键词按天扣费大芬标王坪地网站排名优化大运seo网站优化同乐外贸网站制作沙井seo网站优化广州seo排名木棉湾标王沙井网站设计模板横岗网站搜索优化丹竹头外贸网站制作双龙SEO按天收费坪地网络营销大浪网页设计横岗网站定制歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化