优化器：SGD优化器(随机梯度下降)、Adadelta优化器(自适应调节学习率)。反向传播：梯度下降算法(BP算法)。

最新推荐文章于 2024-04-11 13:51:07 发布

あずにゃん

最新推荐文章于 2024-04-11 13:51:07 发布

阅读量7.9k

点赞数 8

分类专栏：人工智能 Keras 文章标签：人工智能

本文链接： https://blog.csdn.net/zimiao552147572/article/details/104438658

版权

人工智能同时被 2 个专栏收录

503 篇文章 238 订阅

订阅专栏

Keras

20 篇文章 3 订阅

订阅专栏

日萌社

人工智能AI：Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战（不定时更新）

BATCH_SIZE大小设置对训练耗时的影响：
    1.如果当设置BATCH_SIZE等于训练样本时，比如训练样本有512个，设置BATCH_SIZE=512，那么一次BATCH_SIZE=512的批量数据进行训练时，
      会计算BATCH_SIZE=512个样本的反向传播，求出512个样本的梯度累计和，然后使用该梯度累计和进行一次权重参数更新。
    2.如果当设置BATCH_SIZE等于1时，，比如训练样本有512个，设置BATCH_SIZE=1，那么一次BATCH_SIZE=1的批量数据进行训练时，
      会计算BATCH_SIZE=1个样本的反向传播，求出1个样本的梯度，然后使用该梯度进行一次权重参数更新，
      那么当所有512个样本都完成训练时，一共进行了512次反向传播(梯度计算)，512次参数更新。
    3.结论：
        1.显然BATCH_SIZE设置越大，那么所有训练样本数据完成一次训练(完成一个epoch)要进行的参数更新次数会更少，
          那么训练耗时更短，BATCH_SIZE设置越小，一个epoch训练完所有样本数据要进行的参数更新次数会更多，
          因此训练耗时更长。
        2.当然训练耗时也和你所选取的优化算法是全批量梯度下降BGD、随机梯度下降SGD、小批量梯度下降Mini-batch GD(MBGD)有关。
    4.每个批量数据训练都要执行的代码流程
        # 设置优化器初始梯度为0
        optimizer.zero_grad()
        # 模型输入一个批次数据, 获得输出
        output = model(text)
        # 根据真实标签与模型输出计算损失
        loss = criterion(output, label)
        # 将该批次的损失加到总损失中
        train_loss += loss.item()
        # 误差反向传播
        loss.backward()
        # 参数进行更新
        optimizer.step()

あずにゃん

关注关注

8
点赞
踩
43

收藏

觉得还不错? 一键收藏
打赏
0
评论
优化器：SGD优化器(随机梯度下降)、Adadelta优化器(自适应调节学习率)。反向传播：梯度下降算法(BP算法)。

日萌社人工智能AI：Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战（不定时更新）
复制链接

扫一扫