当前训练神经网络最快的方式:AdamW优化算法+超级收敛(3)
更令人印象深刻的是,使用测试时间增加(即在测试集的一个图像和它四个增加数据的版本上取预测的平均值),我们可以在仅仅 18 个 epoch 内达到 94 % 的准确率(平均 93.98 %)!通过简单的 Adam 和 L2正则化,每尝试 20 次就会出现一次超过 94 % 的情况。
在这些比较中需要考虑的一点是,改变正则化方式会改变权重衰减或学习率的最佳值。在我们进行的测试中,L2正则化的最佳学习率为 1e-6(最大学习率为 1e-3),而权重衰减的最佳值为 0.3(学习率为 3e-3)。在我们的所有测试中,数量级的差异都是非常一致的,主要是因为 L2正则化被梯度的平均范数(相当低)有效地划分,并且 Adam 的学习率相当小(所以权重衰减的更新需要更强的系数)。
那么,权重衰减总是比 Adam 的 L2正则化更好?我们还没有发现明显更糟的情况,但无论是迁移学习问题(例如斯坦福汽车数据集上 Resnet50 的微调)还是 RNNs,它都没有给出更好的结果。
AMSGrad 是由 Sashank J. Reddi、Satyen Kale 和 Sanjiv Kumar 在近期的一篇文章中介绍的。通过分析 Adam优化器收敛的证明,他们在更新规则中发现了一个错误,该错误可能导致算法收敛到次优点。他们设计了理论实验,展示 Adam 失败的情形,并提出了一个简单的解决方案。机器之心也曾从适应性学习率算法出发分析过这一篇最佳论文:Beyond Adam。
我们刚刚跳过了偏差校正(对训练的开始很有用),把重心放在了主要点上。作者发现 Adam收敛证明中的错误之处在于:
这是我们朝着平均梯度方向迈出的一步,在训练中逐渐减少。由于学习率常常是恒定或递减的,作者提出的解决方案是通过添加另一个变量来跟踪它们的最大值,从而迫使 avg _ square 量增加。
AMSGrad 的结果令人非常失望。在所有实验中,我们都发现它没有丝毫帮助。即使 AMSGrad 发现的最小值有时比 Adam 达到的最小值稍低(在损失方面),其度量(准确率、f_1 分数)最终总是更糟(详见引言中的表格)。
Adam优化器在深度学习中收敛的证明(因为它针对凸问题)和他们在其中发现的错误对于与现实问题无关的合成实验很重要。实际测试表明,当这些 avg _ square 梯度想要减小时,这么做能得到最好的结果。
这表明,即使把重点放在理论上有助于获得一些新想法,也没有什么可以取代实验(而且很多实验!)以确保这些想法实际上有助于从业人员训练更好的模型。
从零开始训练 CIFAR10(模型是 Wide-ResNet-22,以下为五个模型的平均结果):
使用 fastai 库引入的标准头对斯坦福汽车数据集上的 Resnet 50 进行微调(解冻前对头训练 20 个 epoch,并用不同的学习率训练 40 个 epoch):
使用来自 GitHub()的超参数训练 AWD LSTM(结果显示在有或没有缓存指针(cache pointer)情况下验证/测试集的困惑度):
使用来自 GitHub repo 的超参数训练 QRNN(结果显示在有或没有缓存指针情况下验证/测试集的困惑度):
针对这一具体任务,我们采用了 1cycle 策略的修改版本,加快了学习速度,之后长时间保持较高的恒定学习速度,然后再往下降。
相关文章:
- [国内新闻]关于西太湖车展可以这样理解吗
- [国内新闻]关于专心种田文可以这样理解吗
- [国内新闻]每一步徐小凤这是一条可靠的消
- [国内新闻]有关鲁派赛螃蟹有没有后续报道
- [国内新闻]高傲少爷撞到爱情为什么会上热
- [国内新闻]想你的夜原唱看看网友是如何评
- [国内新闻]有关范琳琳的歌是个什么梗?
- [国内新闻]关于都是天使惹的祸片尾曲详情
- [国内新闻]无赖勇者的鬼蓄美学真相是什么
- [国内新闻]有关复方樟脑粉这件事可以这样
- [国内新闻]关于勇敢一点简谱是传言还是实
- [国内新闻]关于黄金搭档女士看看网友是如
- [国内新闻]有关新宝来和卡罗拉真的还是假
- [国内新闻]在牵手的一瞬间歌词这到底是个
- [国内新闻]爱斯基摩人寿命这样理解正确吗
- [国内新闻]跑跑键盘设置网友如何看?
- [国内新闻]课桌椅样样齐备有没有后续报道
- [国内新闻]有关无双凤凰变这个事件网友怎
- [国内新闻]陶朱公生意经看看网友是如何评
- [国内新闻]有关与空姐同居的日子这件事可
- 青海小西牛生物乳业股份有限公司
- 第七届中国-亚欧博览会透露哪些积极信号?
- ROG6天玑版成安卓旗舰手机性能第一?真实用户评价亮了
- 易方达天天理财货币A
- b是什么车标
- 美格智能技术股份有限公司第二届监事会第十次会议决议
- 湖北奥运冠军谌龙喜获赛季首冠 感叹坚持终于有了回报
- 4080显卡需要多少w电源笔记本什么时候出?
- 斧头男大砍麦当劳事后操作更令人脊背发凉
- 华为美国子公司计划大规模裁员 中国雇员可回国并留在
- 【雄关善治·五治融合】“五治融合”绘就和谐画卷——
- 唇唇欲动无影有踪是真的吗?
- 有关五行带土的字的底层逻辑是什么?
- 面瘫将军求子记具体内容是什么?
- 淘宝分期付款(淘宝上如何分
- 关于魔少的逃跑俏新娘又是什么梗?
- 加盟商百万欠款难追回 鱼乐贝贝“加盟圈套”何时终结
- 值得但非首选]雷克萨斯NX200t两年详细使用感受
- 1~8月南通全市工业投资稳健增长 亿元以上工业项目产出
- 改装档案BMW R nine T真是怎么改都好看!看看印度改出
- “低头族”事故概率暴增22倍:开车玩手机 生命玩不起
- 阴阳师决战鬼王座2000W怎么打 决战鬼王座2000W打法攻
- 20款奔驰GLS450报价 独此一家 别无分号
- 关于芭比的疯狂派对具体是什么原因?
- 文投控股:控股股东新增质押187亿股公司股份
- 推进务实合作 实现互利共赢(风从东方来——国际人士
- 黄山旅游:基期差异影响1Q利润高铁红利逐渐兑现
- 老沙忠告:见顶?分号!等待缩量!
- 江阴法尔胜佩尔
- QNCV、QNCW、QNCU新一代志强八代E3神U 八代E3!秒8700
- 四川师范大学
- 一场长达15年的慢性自杀:这个健康杀手你家也可能有!
- 关于惨不忍睹看点是什么?
- 文旅融合深挖潜力夜间经济持续升温激发消费活力
- 实木家具领军品牌
- 构建“1+20+X”课程思政建设模式
- 关于纵贯线为什么解散发生了什么?
- 荣耀Magic5快充是多少W有双微信吗?
- 禾(hé)种(zhǒnɡ)自盅(zhōnɡ)墒本到底是个什么梗?
- 美国一只小狗被主人留在50度的车内 疑脑部受损