NNDL 作业11:优化算法比较

目录

1. 编程实现图6-1,并观察特征 

2. 观察梯度方向 

3. 编写代码实现算法,并可视化轨迹 

4. 分析上图,说明原理

(1)为什么SGD会走“之字形”?其它算法为什么会比较平滑?

(2)Momentum、AdaGrad对SGD的改进体现在哪里?速度?方向?在图上有哪些体现?

(3)仅从轨迹来看,Adam似乎不如AdaGrad效果好,是这样么?

5. 总结SGD、Momentum、AdaGrad、Adam的优缺点(选做)

6. Adam这么好,SGD是不是就用不到了?(选做) 

 总结


1. 编程实现图6-1,并观察特征 

 

 

import numpy as np
from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
 
 
def func(x, y):
    return x * x / 20 + y * y
 
 
def paint_loss_func():
    x = np.linspace(-50, 50, 100)  # x的绘制范围是-50到50,从改区间均匀取100个数
    y = np.linspace(-50, 50, 100)  # y的绘制范围是-50到50,从改区间均匀取100个数
 
    X, Y = np.meshgrid(x, y)
    Z = func(X, Y)
 
    fig = plt.figure()  # figsize=(10, 10))
    ax = Axes3D(fig)
    plt.xlabel('x')
    plt.ylabel('y')
 
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1, cmap='rainbow')
    plt.show()
 
 
paint_loss_func()

 

 特征

  • 是向x轴方向延申的“碗”状函数,两端高,中间低。
  • 等高线呈向x轴方向延申的椭圆状
  • 有全局最小值

2. 观察梯度方向 

 f(x,y)=\frac{1}{20} x^{2}+y^{2}

上式表示的函数梯度如下图所示: 

由图像能够看出该函数梯度的特征为:

  1. 在y轴方向的坡度大,在x轴方向的坡度小。
  2. 虽然最小值在(x,y)=(0,0)处,但梯度在很多地方并没有指向(0,0)。

3. 编写代码实现算法,并可视化轨迹 

最优化方法的比较SGD、Momentum、Adagrad、Adam

import numpy as np
import matplotlib.pyplot as plt
from collections import OrderedDict
 
 
class SGD:
    """随机梯度下降法(Stochastic Gradient Descent)"""
 
    def __init__(self, lr=0.01):
        self.lr = lr
 
    def update(self, params, grads):
        for key in params.keys():
            params[key] -= self.lr * grads[key]
 
 
class Momentum:
    """Momentum SGD"""
 
    def __init__(self, lr=0.01, momentum=0.9):
        self.lr = lr
        self.momentum = momentum
        self.v = None
 
    def update(self, params, grads):
        if self.v is None:
            self.v = {}
            for key, val in params.items():
                self.v[key] = np.zeros_like(val)
 
        for key in params.keys():
            self.v[key] = self.momentum * self.v[key] - self.lr * grads[key]
            params[key] += self.v[key]
 
 
class Nesterov:
    """Nesterov's Accelerated Gradient (http://arxiv.org/abs/1212.0901)"""
 
    def __init__(self, lr=0.01, momentum=0.9):
        self.lr = lr
        self.momentum = momentum
        self.v = None
 
    def update(self, params, grads):
        if self.v is None:
            self.v = {}
            for key, val in params.items():
                self.v[key] = np.zeros_like(val)
 
        for key in params.keys():
            self.v[key] *= self.momentum
            self.v[key] -= self.lr * grads[key]
            params[key] += self.momentum * self.momentum * self.v[key]
            params[key] -= (1 + self.momentum) * self.lr * grads[key]
 
 
class AdaGrad:
    """AdaGrad"""
 
    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None
 
    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
 
        for key in params.keys():
            self.h[key] += grads[key] * grads[key]
            params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7)
 
 
class RMSprop:
    """RMSprop"""
 
    def __init__(self, lr=0.01, decay_rate=0.99):
        self.lr = lr
        self.decay_rate = decay_rate
        self.h = None
 
    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
 
        for key in params.keys():
            self.h[key] *= self.decay_rate
            self.h[key] += (1 - self.decay_rate) * grads[key] * grads[key]
            params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7)
 
 
class Adam:
    """Adam (http://arxiv.org/abs/1412.6980v8)"""
 
    def __init__(self, lr=0.001, beta1=0.9, beta2=0.999):
        self.lr = lr
        self.beta1 = beta1
        self.beta2 = beta2
        self.iter = 0
        self.m = None
        self.v = None
 
    def update(self, params, grads):
        if self.m is None:
            self.m, self.v = {}, {}
            for key, val in params.items():
                self.m[key] = np.zeros_like(val)
                self.v[key] = np.zeros_like(val)
 
        self.iter += 1
        lr_t = self.lr * np.sqrt(1.0 - self.beta2 ** self.iter) / (1.0 - self.beta1 ** self.iter)
 
        for key in params.keys():
            self.m[key] += (1 - self.beta1) * (grads[key] - self.m[key])
            self.v[key] += (1 - self.beta2) * (grads[key] ** 2 - self.v[key])
 
            params[key] -= lr_t * self.m[key] / (np.sqrt(self.v[key]) + 1e-7)
 
 
def f(x, y):
    return x ** 2 / 20.0 + y ** 2
 
 
def df(x, y):
    return x / 10.0, 2.0 * y
 
 
init_pos = (-7.0, 2.0)
params = {}
params['x'], params['y'] = init_pos[0], init_pos[1]
grads = {}
grads['x'], grads['y'] = 0, 0
 
optimizers = OrderedDict()
optimizers["SGD"] = SGD(lr=0.95)
optimizers["Momentum"] = Momentum(lr=0.1)
optimizers["AdaGrad"] = AdaGrad(lr=1.5)
optimizers["Adam"] = Adam(lr=0.3)
 
idx = 1
 
for key in optimizers:
    optimizer = optimizers[key]
    x_history = []
    y_history = []
    params['x'], params['y'] = init_pos[0], init_pos[1]
 
    for i in range(30):
        x_history.append(params['x'])
        y_history.append(params['y'])
 
        grads['x'], grads['y'] = df(params['x'], params['y'])
        optimizer.update(params, grads)
 
    x = np.arange(-10, 10, 0.01)
    y = np.arange(-5, 5, 0.01)
 
    X, Y = np.meshgrid(x, y)
    Z = f(X, Y)
    # for simple contour line
    mask = Z > 7
    Z[mask] = 0
 
    # plot
    plt.subplot(2, 2, idx)
    idx += 1
    plt.plot(x_history, y_history, 'o-', color="red")
    plt.contour(X, Y, Z)  # 绘制等高线
    plt.ylim(-10, 10)
    plt.xlim(-10, 10)
    plt.plot(0, 0, '+')
    plt.title(key)
    plt.xlabel("x")
    plt.ylabel("y")
 
plt.subplots_adjust(wspace=0, hspace=0)  # 调整子图间距
plt.show()

 

由图可以看出这四个最优化方法中AdaGrad的收敛效果最好。  

4. 分析上图,说明原理

(1)为什么SGD会走“之字形”?其它算法为什么会比较平滑?

SGD算法是从样本中随机抽出一组,训练后按梯度更新一次,然后再抽取一组,再更新一次,在样本量及其大的情况下,可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型,而且SGD没有动量的概念。
其他算法比较平滑是因为对SGD梯度摆动的问题进行解决,例如Momentum就是引入了动量这一概念来减弱Z字型走位。从而得到的图像比较平滑。


(2)Momentum、AdaGrad对SGD的改进体现在哪里?速度?方向?在图上有哪些体现?

Momentum

 SGD下降方法的缺点是参数更新方向只依赖于当前batch计算出的梯度,因此十分的不稳定。为了抑制SGD的震荡,动量认为梯度下降的过程中可以加入惯性。动量梯度下降法运行速度总是快于标准的梯度下降法,其基本思想是在SGD的基础上引入了一阶动量:

m_{t}=\beta _{m_{t-1}}+(1-\beta )g_{t}

一阶动量指的是各个时刻梯度的指数加权平均,约等于\frac{1}{1-\beta_{1}}个历史时刻的梯度向量和的平均值,也就是t时刻的下降方向,不仅由当前点的梯度方向决定,还由此前的累积的梯度来决定,β的经验值一般为0.9,也就是意味着下降方向主要是此前累积的下降方向,并略微偏向当前时刻的下降方向。并利用当前batch微调最终的更新方向。如果当前梯度方向与历史梯度一致,会增强该方向的梯度。如果不一致,能够减少更新。

AdaGrad

AdaGrad其实是对学习率进行了约束,AdaGrad独立地适应所有模型参数的学习率,缩放每个参数反比于其它所有梯度历史平方值总和的平方根。损失较大偏导的参数相应地拥有一个快速下降的学习率,而较小偏导的参数在学习率上有相对较小的下降。净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。

(3)仅从轨迹来看,Adam似乎不如AdaGrad效果好,是这样么?

不一定。AdaGrad在某些模型上效果不错,但不是全部,因为AdaGrad从训练开始时累积平方梯度值会越来越大,会导致学习率过早和过量的减少,从而导致迭代后期收敛极其缓慢;

Adam每次迭代参数的学习步长都有一个确定的范围,不会因为很大的梯度导致很大的学习步长,参数的值比较稳定,但学习率在训练的后期仍然可能不稳定导致无法收敛到足够好的值,泛化能力较差,但相比于Adagrad,不用存储全局所有的梯度,适合处理大规模数据

5. 总结SGD、Momentum、AdaGrad、Adam的优缺点(选做)

  • SGD

优点:训练收敛速度快,可以在线更新模型,有几率跳出局部最优达到更好的局部最优或者全局最优 。
缺点:选择合适的learning rate比较困难;容易收敛到局部最优,并且在某些情况下可能被困在鞍点。

  • Momentum

优点:一方面可以加快收敛速度,另一方面可以提高精度(减少震荡,使模型收敛更稳定)。
缺点:需要人工设定学习率,需要有可靠的初始化参数。

  • AdaGrad

优点:前期gt较小的时候,regularizer较大,能够放大梯度;后期gt较大的时候。regularizer较小,能够约束梯度 ,适合处理稀疏梯度 。
缺点:仍依赖于人工设置一个全局学习率,在这里插入图片描述设置过大的话,会使regularizer过于敏感,对梯度的调节太大。在训练的中后期,分母上梯度平方的累加将会越来越大,从而梯度趋近于0,使得训练提前结束。

  • Adam

优点:结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点;对内存需求较小;为不同的参数计算不同的自适应学习率;也适用于大多非凸优化,适用于大数据集和高维空间。
缺点:可能不收敛;可能错过全局最优解。

6. Adam这么好,SGD是不是就用不到了?(选做) 

       并不是,SGD最大的缺点是下降速度慢,而且可能会在沟壑的两边持续震荡,停留在一个局部最优点。SGD-M在SGD基础上增加了一阶动量,AdaGrad和AdaDelta在SGD基础上增加了二阶动量。把一阶动量和二阶动量都用起来,就是Adam了——Adaptive + Momentum。 但Adam并不能适应所有的场合,首先Adam可能不收敛,二阶动量是固定时间窗口内的累积,随着时间窗口的变化,遇到的数据可能发生巨变,使得 V t V_{t} Vt​ 可能会时大时小,不是单调变化。这就可能在训练后期引起学习率的震荡,导致模型无法收敛;其次,使用Adam可能错过全局最优解,同样的一个优化问题,不同的优化算法可能会找到不同的答案,但自适应学习率的算法往往找到非常差的答案。

 总结

   通过实验对SGD、Momentum、AdaGrad、Adam有了一定的了解,掌握每一种适合的使用的情况,并且明白了SGD最大的缺点是下降速度慢,而且可能会陷入局部最优,Adam结合了几种算法的优点,但泛化能力差,总的来说不如SGD。 

 

 

 

 

 

 

 

 

Sun.02
关注 关注
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
如何比较两个算法的效率
浮华若水
11-28 6432
在学算法的时候,经常会涉及分析算法的复杂度和效率的问题,按照书本上的理论通常也能够大概推出个结论。通常都是根据算法中重要的语句去推算,例如for 循环语句等。那么有没有可以用程序去真正上机实验的办法呢?       其实方法也是很简单,如果我们用的是C语言,可以利用#include 文件中的ftime()函数完成。具体举例如下:       程序1: #include #i
NNDL:使用python的梯度下降算法
03-25
NNDL:使用python的梯度下降算法
NNDL-solutions:迈克尔·尼尔森(Michael Nielsen)的《神经网络与深度学习》一书中的练习和问题的解决方案
05-03
NNDL解决方案 迈克尔·尼尔森(Michael Nielsen)的书《 (以及对Python 3和Theano 1.0.3的代码的改编)中的练习和问题的解决方案(数学和代码)。 在这里找到练习和问题的解决方案: 涉及数学: notebooks 涉及...
NNDL:神经网络和深度学习课程回购
04-12
作业5: 它由微型批次梯度下降优化器的实现组成,该优化器用于对点样本进行采样,这些点取自线y = 2 * x + 3的方程式。作业6: 在房屋价格数据集上实现小批量梯度下降。作业7: 它由批量梯度下降优化器的实现组成,...
锻炼:锻炼nndl
02-26
《神经网络与深度学习》课程练习 书籍信息: 欢迎大家补充练习译文。...11.高斯混合模型高斯混合模型 12.限制性玻尔兹曼机 使用适当的玻尔兹曼机(Restricted Boltzmann Machine,RBM),对MNIST数据集建模。
NNDL:神经网络与深度学习
03-07
NNDL:神经网络与深度学习
多目标跟踪 (MOT) 算法简介
weixin_41446370的博客
06-18 439
多目标跟踪 (MOT) 是一项计算机视觉任务,旨在识别和跟踪视频序列中的多个目标。与单目标跟踪不同,MOT 需处理多个目标的相互遮挡、消失和重新出现等复杂情况。
算法笔记(二叉树1)
weixin_64704029的博客
06-18 289
二叉树刷题
算法篇-二叉树
分享Java知识,记录思考和感悟
06-21 208
分享二叉树相关概念和算法
算法基础精选题单 动态规划(dp)(区间dp)(个人题解)
Wzh20060111的博客
06-21 507
目录前言:正文: 题单:【237题】算法基础精选题单_ACM竞赛_ACM/CSP/ICPC/CCPC/比赛经验/题解/资讯_牛客竞赛OJ_牛客网 (nowcoder.com)NC50493 石子合并:NC50500 凸多边形的划分:NC235246 田忌赛马:NC13230 合并回文子串:NC16645 [NOIP2007]矩阵取数游戏:NC207781 迁徙过程中的河流:后记: 这些dp对我来说就没那么简单了,但写过这些题目之后我确实对区间dp有了一个简单的认识,区间dp一般都是二维的,由第一维表示左
189.二叉树:将有序数组转换为二叉搜索树(力扣)
weixin_63779802的博客
06-21 109
代码使用了递归的方法。主要思路是首先找到数组的中间元素,然后以这个中间元素作为根节点,递归地在数组中构建左右子树。左子树包含数组中所有小于中间元素的元素,右子树包含所有大于中间元素的元素。这个算法的时间复杂度是 O(n),其中 n 是数组中元素的数量。空间复杂度也是 O(n),因为需要存储递归调用的栈。
洛谷题解 - P1036 [NOIP2002 普及组] 选数
Python_enjoy 是一个大帅哥!
06-16 932
个整数相加,可分别得到一系列的和。现在,要求你计算出和为素数共有多少种。NOIP 2002 普及组第二题。第一行两个空格隔开的整数。输出一个整数,表示种类数。
455. 分发饼干
SHUOSHUREN233的博客
06-20 141
对每个孩子 i,都有一个胃口值 g[i],这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干 j,都有一个尺寸 s[j]。如果 s[j] >= g[i],我们可以将这个饼干 j 分配给孩子 i ,这个孩子会得到满足。本题我的思路是小饼干优先满足胃口小的小孩,但没有弄清楚遍历顺序,也没有正确的移动下标,导致代码一直出错,使用一个int型变量来控制小孩数组的遍历,并且统计满足小孩的数量即可。假设你是一位很棒的家长,想要给你的孩子们一些小饼干。,并输出这个最大数值。
算法与设计】期末总结
2201_75475240的博客
06-18 1324
算法:解决问题的一种方式或者一种过程。算法有若干个指令组成的有穷序列。程序:算法用某种程序设计语言的具体实现输入输出确定性有限性程序可以不满足“有限性”
openjudge_2.5基本算法之搜索_8436:Saving Tang Monk
adam_life的博客
06-21 474
openjudge_2.5基本算法之搜索_8436:Saving Tang Monk
*算法训练(leetcode)第十四天 | 513. 找树左下角的值、112. 路径总和、106. 从中序与后序遍历序列构造二叉树、D
weixin_43872997的博客
06-21 891
LeetCode刷题日记
手撕排序2--选择排序(直接选择+堆排序
最新发布
2302_81153999的博客
06-21 259
把最大的换到最后,不把其看是堆里的。前n-1个数向下调整,选出次大的数,再跟倒数第二个位置交换........每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元素排完。堆排序是利用堆 这种数据结构而设计的一种排序算法,它是选择排序的一种。将该节点与左右子树的节点进行比较,重新构建成一个大堆或者小堆。每个结点的值都小于或等于其左右孩子结点的值,称为。每个结点的值都大于或等于其左右孩子结点的值。物理结构是:一个数组。1. 对待排序的数组,先构建成 堆。
【数据结构】实现冒泡排序算法(Java语言
`雾博客
06-18 224
请实现bubbleSort函数,使排序后的数据从小到大排列。/* 对长度为n的数组arr执行冒泡排序 */
ModuleNotFoundError: No module named 'nndl'
09-23
ModuleNotFoundError: No module named 'nndl'错误通常是由于缺少相应的模块导致的。在这种情况下,您遇到了一个名为'nndl'的模块找不到的错误。您可以尝试以下几种方法来解决这个问题: 1. 确保您已经正确安装了所...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 深度学习 实验二 904
  • NNDL 实验六 卷积神经网络(5)使用预训练resnet18实现CIFAR-10分类 689
  • NNDL 作业5:卷积 636
  • NNDL 作业7:第五章课后题(1×1 卷积核 | CNN BP) 631
  • 神经网络与深度学习(六)卷积神经网络(4)ResNet18实现MNIST 506

最新评论

  • NNDL 实验一 numpy

    CSDN-Ada助手: Python入门 技能树或许可以帮到你:https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

  • 生产者-消费者模式:同步与协作的典范 1097
  • c++类的组合 323
  • three.js 第六节 - 纹理以及贴图【.hdr文件(hdr贴图)】- 色彩空间 194
  • python新手开发物联网应用二(高级功能和优化)
  • 使用ReentrantLock和Semaphore实现单任务执行多线程唤醒 503

最新文章

  • NNDL 作业12:第七章课后题
  • NNDL 实验八 网络优化与正则化(3)不同优化算法比较
  • 神经网络与深度学习(七)循环神经网络(3)LSTM的记忆能力实验
2022年28篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码罗湖seo优化丹竹头网站推广大浪关键词按天计费同乐企业网站制作大运模板制作观澜网页制作罗湖网站建设荷坳网络广告推广双龙网站建设设计丹竹头关键词按天扣费沙井建网站木棉湾标王坂田seo网站优化罗湖关键词按天扣费大芬网站优化广州seo网站优化爱联企业网站制作南联网站建设坪地建设网站深圳网络营销木棉湾至尊标王福田企业网站设计坪地网页设计大芬关键词按天收费大鹏网页设计民治关键词按天扣费大浪营销型网站建设沙井网站推广方案横岗网站开发双龙外贸网站建设歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化