#深入探究# Adam和SGDM优化器的对比

最新推荐文章于 2024-04-29 11:18:46 发布

energy_百分百

最新推荐文章于 2024-04-29 11:18:46 发布

阅读量1w

收藏 71

点赞数 9

分类专栏：机器学习深度学习 NLP 文章标签： adam SGDM 优化器深度学习自适应学习率

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/lch551218/article/details/117652604

版权

机器学习同时被 3 个专栏收录

72 篇文章 12 订阅

订阅专栏

31 篇文章 3 订阅

订阅专栏

23 篇文章 11 订阅

订阅专栏

常用优化器的详细解析请参考此文章：

文章目录

1. Adam 和 MSGD
2. SWATS
3. Adam + warm-up
4. Lookahead（k step forward，1 step back）
5. AdamW 和 SGDWM
6. SGDM 和 Adam 应用

1. Adam 和 MSGD

Adam和MSGD作为当今最优秀的两种深度学习优化器，分别在效率和精度上有着各自的优势，下面我们将分析两种优化器各自优势的原因，两边的两张图分别是几种常见的优化器在猫狗分类数据集上的分类准确率曲线，第一个是训练集，第二个是测试集

以下两张图是某个NLP任务中，几种模型的准确率和困惑度指标变换曲线

通过上边两幅图片可知：

Adam在训练集上的准确率较高，MSGD在测试集上的准确率较高
Adam的速度更快，但MSGD能够得到好的效果

第一个结论可以用下边这个图来解释：

虽然测试集和训练集都来自同一数据集，但是测试集和训练集在数据分布上还是有着些许偏差（或者说参数的最优值存在细微偏差）；同一个损失函数可能包含多个最优解，而这些最优解又可以分为 Flat Minimum 和 Sharp Minimum，其中测试集和训练集上 Flat Minimum 重合的几率较大，Sharp Minimum 重合的几率较小（如上图所示）；因此在训练集上得到的是 Flat Minimum，那么在测试集也能得到 Minimum 值得概率会很大，我们要尽可能的得到 Flat Minimum

Adam 得到最优解多数时候是 Sharp Minimum，而 MSGD 得到往往是Flat Minimum，这也就解释了为什么MSGD在测试集上能够得到更好的效果

至于第二个结论，原因是 Adam 在 MSGD的基础上增加了自适应学习率机制，能够使Adam针对不同的参数分配不同的学习率，从而增加优化速度

2. SWATS

通过上述分析我们得知，Adam在前期优化速度较快，SGDM在后期优化精度较高；SWATS算法在提出在前期使用Adam算法，后期使用SGDM算法，从而在保证算法精度的同时，提高了算法的速度，但此算法存在两个问题：何时切换和如何切换两种算法，因为原作者并并没有针对这两个问题给出确切的解决方案，因此SWATS算法的应用并不是很广泛

3. Adam + warm-up

首先我们看一下Adam 在使用 warm-up前后的区别。
下图横轴代表模型中参数中梯度的绝对值大小，纵轴代表迭代次数，高度代表当前迭代次数下当前梯度大小的参数数量

通过上图可知，没有使用warm-up的Adam算法，在算法初期（图二）梯度大小分布较为复杂（梯度数值跨度较大），而使用warm-up的Adam梯度值分布较为集中

4. Lookahead（k step forward，1 step back）

Lookahead（k step forward，1 step back）本质上是一种在各种优化器上层的一种优化器方法，内部可以使用任何形式的优化器，用作者的话说就是：universal wrapper for all optimizers
Lookahead 的就是：没使用优化器向前走k步，就对当前的第1步和第k步做一个加权平均（忽略中间的k-2步）；以下图为例，蓝色线是优化器走的k步路径，然后将蓝线的起始点连接（图中红线），然后在红线上取一点作为k+1步的值（根据 α 而定）

Lookahead 的伪代码如下：

其中 optim() 为任意优化器得到的值

5. AdamW 和 SGDWM

在神经网络中，为了提高网络的泛化性我们一般会在损失函数中增加 L2 正则，这种网络使用Adam和SGDM优化器会出现问题

下图是三种优化器计算权重更新值的过程（损失函数中包含L2正则）：

我们得到的 $m_t$ $v_t$ 都多出了一个 $γθ_{t-1}$ ，为了解决这个问题，2017年提出了 AdamW 和 SGDWM 优化器，这两种优化器将 $γθ_{t-1}$ 放到了 $m_t$ 和 $v_t$ 外，AdamW 和 SGDWM 优化器的公式如下：

注：著名的Bert模型（PyTorch）中使用的 Adam优化器就是 AdamW优化器

6. SGDM 和 Adam 应用

SGDM 和 Adam 应用请参考下表：

energy_百分百

9
点赞
踩
71

收藏

觉得还不错? 一键收藏
打赏
0
评论
#深入探究# Adam和SGDM优化器的对比

1. Adma 和 MSGDAdam和MSGD作为当今最优秀的两种深度学习优化器，分别在效率和精度上有着各自的优势，下面我们将分析两种优化器各自优势的原因，两边的两张图分别是几种常见的优化器在猫狗分类数据集上的分类准确率曲线，第一个是训练集，第二个是测试集以下两张图是某个NLP任务中，几种模型的准确率和困惑度指标变换曲线通过上边两幅图片可知：Adma在训练集上的准确率较高，MSGD在测试集上的准确率较高Adma的速度更快，但MSGD能够得到好的效果第一个结论可以用下边这个图来解释：
复制链接

扫一扫

energy_百分百

CSDN认证博客专家 CSDN认证企业博客

195: 原创

1万+: 周排名

77万+: 总排名

97万+: 访问

: 等级

9195: 积分

190: 粉丝

843: 获赞

234: 评论

2164: 收藏

写文章

热门文章

通俗理解什么是量纲 48273
#从源头解决# 自定义头文件在VS上出现“无法打开源文件“XX.h“的问题 46194
#最全面# VS 出现无法打开 iostream 的错误 25695
linux下启动 nginx 提示 ‘Welcome to CentOS...’ 18999
#从根本解决# uwsgi --ini uwsgi.ini 无法绑定端口 18174

分类专栏

最新评论

#最全面# VS 出现无法打开 iostream 的错误
2301_80091817: 哭了，看不懂，有没有详细一点的，而且找不到vs之前下载的路径怎么办
Pyqt 使用 QButtonGroup的 buttonClicked 信号，返回 PyQt5.QtWidgets.QRadioButton 对象
Brian.Tang: 大佬，请问你在哪看到的源码，我想看下源码，发现被编译为pyd文件
通俗理解 Adam 优化器
林声声: 你好，请问公式来源于哪里呀，有链接吗
#根本上解决# 使用 Pyinstaller 打包后出现 lib not found 错误
Matcha芥末酱: 其实没有解决问题，很难给你一个赞
#深度解析# 深度学习中的SGD、BGD、MBGD、Momentum、NAG、Adagrad、Adadelta，RMSprop、Adam优化器
丝诺温忒: 能不能注释下公式里符号都是啥啊？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

最新文章

对 Relu激活函数导致 [ 神经元死亡 ] 的理解
#深入理解# 线性回归中的“线性”、以及最小二乘和梯度下降的理解
#浅谈# 构造哈夫曼树

目录

目录

分类专栏

概率基础 12篇

机器学习 72篇

深度学习 31篇

数据结构 4篇

集成学习 1篇

环境配置 17篇

python编程 65篇

linux编程 24篇

成果分享 1篇

c++混合编程 4篇

Python语法糖 2篇

VS配置问题 3篇

TensorFlow 24篇

经典算法 1篇

网络编程 5篇

云服务器 9篇

matlab算法 2篇

matlab编程 2篇

javascript 4篇

速查资料 5篇

域名设置 1篇

个人博客 1篇

远程仓库 1篇

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

打赏作者

energy_百分百 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

您的余额不足，请更换扫码支付或充值

打赏作者

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

PHP网站源码坂田seo优化观澜网站优化按天扣费观澜seo网站推广盐田设计公司网站坪山网站优化南联网站推广工具横岗优秀网站设计南联SEO按天计费龙岗seo网站推广龙华网站seo优化松岗网站关键词优化坑梓百度seo 光明百搜标王坂田网站优化按天计费惠州网站制作松岗网络营销丹竹头网站制作大运建网站罗湖网站改版西乡网站开发广州SEO按天计费吉祥关键词排名包年推广坪山外贸网站设计坂田网站搜索优化南山网站推广方案大浪seo优化塘坑网站关键词优化光明网站搜索优化双龙seo网站推广松岗百度爱采购歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化