当前训练神经网络最快的方式:AdamW优化算法+超级收敛
中非常重要的部分,也是学习过程的核心算法。而 Adam 自 14 年提出以来就受到广泛关注,目前该论文的引用量已经达到了 10047。不过自去年以来,很多研究者发现 Adam 优化算法的库的 Adam 实现都有一些问题,并在 fastai 库中实现了一种新型 AdamW 算法。根据一些实验,作者表示该算法是目前训练
Adam优化器之旅可以说是过山车(roller-coaster)式的。该优化器于 2014 年推出,本质上是一个出于直觉的简单想法:既然我们明确地知道某些参数需要移动得更快、更远,那么为什么每个参数还要遵循相同的学习率?因为最近梯度的平方告诉我们每一个权重可以得到多少信号,所以我们可以除以这个,以确保即使是最迟钝的权重也有机会发光。Adam 接受了这个想法,在过程中加入了标准方法,就这样产生了 Adam优化器(稍加调整以避免早期批次出现偏差)!
训练速度提高 200%!「总体来看,我们发现 Adam 非常鲁棒,而且广泛适用于机器学习领域的各种非凸优化问题」论文结尾这样写道。那是三年前,深度学习的黄金时期。然而,事情并没有按照我们期望的方向发展。使用 Adam 训练模型的研究文章少之又少,新的研究开始明显地抑制了它的应用,并在几个实验中表明,SGD+momentum 可能比复杂的 Adam 表现更好。2018 fast.ai 课程开课之际,可怜的 Adam 被从早期课程中删除。
但是到了 2017 年末,Adam 似乎又重获新生。Ilya Loshchilov 和Frank Hutter在他们的论文《FixingWeightDecayRegularizationin Adam》中指出,每个库在 Adam 上实施的权重衰减似乎都是错误的,并提出了一种简单的方法(他们称之为 AdamW)来修复它。尽管结果略有不同,但他们确实给出了一些类似下图的令人鼓舞的图表:
我们希望人们恢复对 Adam 的热情,因为该优化器的一些早期结果似乎可以复现。但事与愿违。实际上,应用它的唯一一个深度学习框架就是使用 Sylvain 编码的 fastai。由于缺乏可用的广泛框架,日常实践者就只能固守又旧又不好用的 Adam。
但这不是唯一的问题。前面还有很多阻碍。两篇论文指出了 Adam 在收敛性证明方面的明显问题,尽管其中一篇提出了名为 AMSGrad 的修正(并在享有盛誉的 ICLR 大会上赢得了「最佳论文」奖)。但是,如果说我们从这种最戏剧化的生活(至少按照优化器的标准来说是戏剧化的)简史中学到了什么,那就是,没有什么是它表面看起来的样子。的确,博士生 Jeremy Bernstein 指出,所谓的收敛问题其实只是选择不当的超参数的迹象,也许 AMSGrad 也解决不了问题。另一名博士生 Filip Korzeniowski 展示了一些早期成果,似乎支持了 AMSGrad 这种令人沮丧的观点。
那么我们这些只希望快速训练精确模型的人该做些什么呢?我们选择用数百年来解决科学辩论的方式科学实验来解决这一争议!稍后将呈现所有细节,但首先让我们来看一下大致结果:
对 Resnet50 进行调参,直至其在斯坦福汽车数据集上的准确率达到 90%,只需训练 60 个 epoch(之前达到相同的准确率需要 600 个 epoch);
这意味着我们已经看到使用 Adam 的超收敛!超收敛是训练学习率高的神经网络时出现的一种现象,它表示节省了一半训练过程。在 AdamW 之前,训练 CIFAR10 至 94 % 的准确率需要大约 100 个 epoch。
与之前的工作相比,我们发现只要调整得当,Adam 在我们尝试过的每一个 CNN 图像问题上都可以获得与 SGD+Momentum一样好的准确率,而且几乎总是快一点。
关于 AMSGrad 是一个糟糕的「解决方案」的建议是正确的。我们一直发现,AMSGrad 在准确率(或其他相关指标)上没有获得比普通 Adam / AdamW 更高的增益。
相关文章:
- [国内新闻]关于西太湖车展可以这样理解吗
- [国内新闻]关于专心种田文可以这样理解吗
- [国内新闻]每一步徐小凤这是一条可靠的消
- [国内新闻]有关鲁派赛螃蟹有没有后续报道
- [国内新闻]高傲少爷撞到爱情为什么会上热
- [国内新闻]想你的夜原唱看看网友是如何评
- [国内新闻]有关范琳琳的歌是个什么梗?
- [国内新闻]关于都是天使惹的祸片尾曲详情
- [国内新闻]无赖勇者的鬼蓄美学真相是什么
- [国内新闻]有关复方樟脑粉这件事可以这样
- [国内新闻]关于勇敢一点简谱是传言还是实
- [国内新闻]关于黄金搭档女士看看网友是如
- [国内新闻]有关新宝来和卡罗拉真的还是假
- [国内新闻]在牵手的一瞬间歌词这到底是个
- [国内新闻]爱斯基摩人寿命这样理解正确吗
- [国内新闻]跑跑键盘设置网友如何看?
- [国内新闻]课桌椅样样齐备有没有后续报道
- [国内新闻]有关无双凤凰变这个事件网友怎
- [国内新闻]陶朱公生意经看看网友是如何评
- [国内新闻]有关与空姐同居的日子这件事可
- 青海小西牛生物乳业股份有限公司
- 第七届中国-亚欧博览会透露哪些积极信号?
- ROG6天玑版成安卓旗舰手机性能第一?真实用户评价亮了
- 易方达天天理财货币A
- b是什么车标
- 美格智能技术股份有限公司第二届监事会第十次会议决议
- 湖北奥运冠军谌龙喜获赛季首冠 感叹坚持终于有了回报
- 4080显卡需要多少w电源笔记本什么时候出?
- 斧头男大砍麦当劳事后操作更令人脊背发凉
- 华为美国子公司计划大规模裁员 中国雇员可回国并留在
- 【雄关善治·五治融合】“五治融合”绘就和谐画卷——
- 唇唇欲动无影有踪是真的吗?
- 有关五行带土的字的底层逻辑是什么?
- 面瘫将军求子记具体内容是什么?
- 淘宝分期付款(淘宝上如何分
- 关于魔少的逃跑俏新娘又是什么梗?
- 加盟商百万欠款难追回 鱼乐贝贝“加盟圈套”何时终结
- 值得但非首选]雷克萨斯NX200t两年详细使用感受
- 1~8月南通全市工业投资稳健增长 亿元以上工业项目产出
- 改装档案BMW R nine T真是怎么改都好看!看看印度改出
- “低头族”事故概率暴增22倍:开车玩手机 生命玩不起
- 阴阳师决战鬼王座2000W怎么打 决战鬼王座2000W打法攻
- 20款奔驰GLS450报价 独此一家 别无分号
- 关于芭比的疯狂派对具体是什么原因?
- 文投控股:控股股东新增质押187亿股公司股份
- 推进务实合作 实现互利共赢(风从东方来——国际人士
- 黄山旅游:基期差异影响1Q利润高铁红利逐渐兑现
- 老沙忠告:见顶?分号!等待缩量!
- 江阴法尔胜佩尔
- QNCV、QNCW、QNCU新一代志强八代E3神U 八代E3!秒8700
- 四川师范大学
- 一场长达15年的慢性自杀:这个健康杀手你家也可能有!
- 关于惨不忍睹看点是什么?
- 文旅融合深挖潜力夜间经济持续升温激发消费活力
- 实木家具领军品牌
- 构建“1+20+X”课程思政建设模式
- 关于纵贯线为什么解散发生了什么?
- 荣耀Magic5快充是多少W有双微信吗?
- 禾(hé)种(zhǒnɡ)自盅(zhōnɡ)墒本到底是个什么梗?
- 美国一只小狗被主人留在50度的车内 疑脑部受损