优化器:SGD优化器(随机梯度下降)、Adadelta优化器(自适应调节学习率)。反向传播:梯度下降算法(BP算法)。
日萌社
人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)
BATCH_SIZE大小设置对训练耗时的影响:
1.如果当设置BATCH_SIZE等于训练样本时,比如训练样本有512个,设置BATCH_SIZE=512,那么一次BATCH_SIZE=512的批量数据进行训练时,
会计算BATCH_SIZE=512个样本的反向传播,求出512个样本的梯度累计和,然后使用该梯度累计和进行一次权重参数更新。
2.如果当设置BATCH_SIZE等于1时,,比如训练样本有512个,设置BATCH_SIZE=1,那么一次BATCH_SIZE=1的批量数据进行训练时,
会计算BATCH_SIZE=1个样本的反向传播,求出1个样本的梯度,然后使用该梯度进行一次权重参数更新,
那么当所有512个样本都完成训练时,一共进行了512次反向传播(梯度计算),512次参数更新。
3.结论:
1.显然BATCH_SIZE设置越大,那么所有训练样本数据完成一次训练(完成一个epoch)要进行的参数更新次数会更少,
那么训练耗时更短,BATCH_SIZE设置越小,一个epoch训练完所有样本数据要进行的参数更新次数会更多,
因此训练耗时更长。
2.当然训练耗时也和你所选取的优化算法是全批量梯度下降BGD、随机梯度下降SGD、小批量梯度下降Mini-batch GD(MBGD)有关。
4.每个批量数据训练都要执行的代码流程
# 设置优化器初始梯度为0
optimizer.zero_grad()
# 模型输入一个批次数据, 获得输出
output = model(text)
# 根据真实标签与模型输出计算损失
loss = criterion(output, label)
# 将该批次的损失加到总损失中
train_loss += loss.item()
# 误差反向传播
loss.backward()
# 参数进行更新
optimizer.step()
m0_75250276: 写的很好的文章,点赞
芝士就是能量!: 更新的这段代码: z = reshape_z(z, self.dim_z, self.x.ndim)。这是定义了一个函数“reshape_z”吗
m0_58786729: 这得去下个包了,bert_chinese_encode网站 访问不了现在
strongzly: 可以求一个代码吗?
不想敲代码了啊啊a: 你好,我在进行到模型基本测试运行阶段的第三步时报错了,说索引超出self的范围,这是为什么?