静5青年讲座回顾 | 许逸伦博士谈物理启发的生成模型最新进展
关键词:静5青年讲座
编者按
2024年6月13日,北京大学图灵班首届毕业生、麻省理工学院(MIT)博士、英伟达研究员许逸伦访问了北京大学前沿计算研究中心,并在静园五院作了题为“On Physics-Inspired Generative Models”的学术报告。报告深入探讨了物理启发的生成模型在采样、训练和网络设计等方面的最新研究进展。此次活动由中心教授王亦洲老师主持。
许逸伦博士报告现场
近年来,物理启发的生成模型备受关注,尤其是扩散模型(diffusion models),其在多个应用场景中均展现出了显著的性能提升和卓越的生成效果。讲者首先回顾了扩散模型的理论基础,其灵感源于非平衡热力学,包含两个核心过程:前向过程(forward process)将高斯噪声逐步引入图像,直至逼近纯噪声分布;而逆向过程(backward process)则需从纯噪声中恢复出清晰的图像。我们可以通过随机微分方程(SDE)对两个过程进行数学描述,其中逆向过程的实现依赖于对 score function 的准确估计,常用神经网络进行拟合。
针对扩散模型在实际应用中面临的采样效率问题,讲者指出,虽然逆向 SDE 方程存在对应的概率流 ODE 形式,求解 ODE 方程能够加快生成速度,但往往会导致图像质量的下降。因此讲者提出了 Restart 算法以有效平衡生成效率与图像质量:使用 ODE 求解逆向过程,在中间步骤时添加较大的噪声进行适当“回跳”,并重复该过程 K 次。从理论上分析,Restart 算法不仅享有和 ODE 一样的较小离散误差,同时还能比 SDE 更好地利用噪声来减小采样过程中积累的误差。其结合了 SDE 和 ODE 方法的各自优势,并在真实数据上展示出显著的效果提升。
其次讲者分析了扩散模型在处理多峰数据分布上的挑战:对逆向 ODE 求解过程中,当数据点移动到分布中不同类别的图片时,轨迹曲线会展示出较大的曲率。这主要是因为前向过程加噪得到单一模式的高斯分布,在逆向过程中模型需决定往哪一“峰值”处移动,导致在曲率较大的轨迹上采样速度减慢,并增加了模型的学习难度。讲者在论文 Disco-Diff 中提出用离散的隐变量来增强扩散模型:即引入离散编码器,用于表征不同的模式,然后通过 cross-attention 模块输入扩散模型,进行端到端训练。该方法有效解耦了不同模式上的分布学习,减小了 ODE 轨迹的曲率,提高了采样效率,并能降低所需的模型复杂度。
最后讲者还介绍了其他物理启发的生成模型,如借鉴静电力学思想的 PFGM 模型。该模型将数据点视为增广空间的超平面上的点电荷,可由电场线定义从数据分布到高维球面上均匀分布的双射。PFGM 中的前向和逆向过程则通过泊松方程(Poisson equation)进行定义。讲者进一步指出,当我们令增广变量的维数 D 趋近于正无穷时,泊松流模型可等价于扩散模型。后续的改进工作 PFGM++ 通过选择合适的维数 D,能够兼顾模型的鲁棒性和训练的难度。报告最后,讲者指出常见物理过程均可用 PDE 进行刻画,推导出样本如何随随时间而演化,从而定义对应的物理启发的生成模型。
此次报告引发了在场师生们的热烈讨论,大家就扩散模型的技术细节、物理启发的生成模型背后的设计思想等问题进行了深入探讨。报告在热烈的讨论氛围中结束。
合影留念
报告回放:
图文 | 叶航
往期讲座
— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。
点“阅读原文”转报告回放链接