【活动通知】SFFAI100×CRIPAC 优化算法专题
SFFAI 合作机构 CRIPAC 简介
会议内容
会议简介
在模型训练过程中如果梯度波动太剧烈,会使得模型训练不稳定。这一问题在深度神经网络(DNN)和循环神经网络(RNN)中尤为突出,并存在著名的梯度爆炸(Gradient Exploding)现象。要解决这类问题,一项很重要的方法就是梯度剪裁(Gradient Clipping)。本期论坛我们邀请到了来自北京大学的张博航同学,对梯度剪裁算法进行深度解析。
讲者介绍
张博航,北京大学博士二年级在读,研究方向为对抗样本及鲁棒学习(Adversarial Robustness)、优化算法(Optimization)等,目前以第一作者发表NeurIPS一篇。
会议题目
神经网络优化中的梯度裁剪算法分析
会议摘要
基于梯度裁剪(Gradient Clipping)的梯度下降算法是一种广泛应用在神经网络训练中的方法,可以起到缓解梯度爆炸的作用。尽管它在实践中非常有效,目前对这一类算法的理解仍十分欠缺。在这次报告中,我们将研究一大类梯度裁剪框架下的算法,并在一种弱假设下给出算法的收敛性结果。和以前对于梯度裁剪的分析相比,我们的方法更加一般化(也适用于基于动量的梯度裁剪算法),而且得到了比之前更优的理论结果。我们的结果表明,梯度裁剪算法与普通的随机梯度下降相比,大大加速了高度非光滑的函数的优化过程。我们也通过实验比较了各种任务中梯度裁剪算法的表现,验证了这一结论。
论文标题:Improved Analysis of Clipping Algorithms for Non-convex Optimization
论文下载:关注本公众号,对话框回复“SFFAI100”,获取下载
会议亮点
1、我们对一大类梯度裁剪框架下的算法进行了理论分析,包含了常见的随机梯度下降算法和基于动量的随机梯度下降算法;
2、我们得到了比之前更优的理论结果,这一结果对梯度裁剪为什么有效以及什么情况下有效给出了强有力的回答;
3、我们在各种CV和NLP实验中验证了梯度裁剪算法的有效性。
直播时间
2021年3月28日(周日)20:00-21:00 线上直播
关注本公众号,对话框回复“SFFAI100”,获取入群二维码
注:直播地址会分享在交流群内
论文推荐
“SFFAI100期来自来自北京大学的张博航同学推荐的文章主要关注于算法优化领域,你可以认真阅读讲者推荐的论文,来与讲者及同行线上交流哦。”
推荐论文
01
推荐理由:这篇文章发表在ICLR 2020,得分很高,对于理解本次报告比较有用。
02
推荐理由:这篇文章发表在NeurIPS 2020,它从另一个角度分析了有噪声的随机优化情况下,梯度裁剪的有效性。
03
推荐理由:这篇文件是一篇比较理论的文章,给出了对基于动量的梯度归一化的分析。
其它相关论文
04
推荐理由:这篇文章适合对优化领域不太了解的初学者来看,能够对一些基本的概念和常见的算法有所了解。
05
推荐理由:这篇论文系统全面的分析了凸优化和非凸优化下随机梯度下降算法的收敛性,是一篇非常经典的论文。
SFFAI招募!
现代科学技术高度社会化,在科学理论与技术方法上更加趋向综合与统一,为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。
SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展,将对线下讨论的内容进行线上传播,使后来者少踩坑,也为讲者塑造个人影响力。SFFAI还在构建人工智能领域的知识森林—AI Knowledge Forest,通过汇总各位参与者贡献的领域知识,沉淀线下分享的前沿精华,使AI Knowledge Tree枝繁叶茂,为人工智能社区做出贡献,欢迎大家关注SFFAI论坛:https://bbs.sffai.com。SFFAI历史活动
SFFAI 99 数据扩增专题
SFFAI 98 模型架构设计专题
SFFAI 97 三维点云检测专题
SFFAI 96 目标检测专题
SFFAI 95 因果推理专题
SFFAI 94 人脸生成专题
SFFAI 93 知识图谱专题
SFFAI 92 AI研究启航指南
SFFAI 91 组合泛化专题
SFFAI 90 超分辨率专题
SFFAI 89 三维几何学习专题
SFFAI 88 对话生成专题
SFFAI 87 异构网络挖掘专题
SFFAI 86 学术人生专栏
SFFAI 85 情感分析专题
更多SFFAI历史活动
请点击文章底部“阅读原文”查看