优化方法对比,SGD、momentum/Nesterov、AdaGrad、RMSProp、AdaDelta、Adam、AdaMax、Nadam
优化方法 SGD、momentum/Nesterov、AdaGrad、RMSProp、AdaDelta、Adam、AdaMax、Nadam 的大致对比。
(1)对于稀疏数据,尽量使用学习率可自适应的算法,不用手动调节,而且最好采用默认参数。
(2)SGD通常训练时间最长,但是在好的初始化和学习率调度方案下,结果往往更可靠。但SGD容易困在鞍点,这个缺点也不能忽略。
(3)如果在意收敛的速度,并且需要训练比较深比较复杂的网络时,推荐使用学习率自适应的优化方法。
(4)Adagrad,Adadelta和RMSprop是比较相近的算法,表现都差不多。
(5)在能使用带动量的RMSprop或者Adam的地方,使用Nadam往往能取得更好的效果。
m0_74479032: 大佬请问损失框的迭代是用什么软件化的呀
weixin_51593559: 罗浩博士的这篇论文是对vit模型的优化吧,那如果我只用vit模型进行ReID任务那该如何呢?最近在接触行人重识别,并且在用vit模型尝试完成,训练时可以使用id loss,但并不懂如何使用三元组损失,该使用vit模型的编码数据吗,但是196x768的维度有点太大了。
TC1398: 请问这个到底加哪儿的?还是说所有的都加了?
夢の船: 有开源代码哦
氢氢的气球: 有人成功吗