静5青年讲座回顾 | 许逸伦博士谈物理启发的生成模型最新进展

Original CFCS 北京大学前沿计算研究中心

2024-09-16

关键词：静5青年讲座

编者按

2024年6月13日，北京大学图灵班首届毕业生、麻省理工学院（MIT）博士、英伟达研究员许逸伦访问了北京大学前沿计算研究中心，并在静园五院作了题为“On Physics-Inspired Generative Models”的学术报告。报告深入探讨了物理启发的生成模型在采样、训练和网络设计等方面的最新研究进展。此次活动由中心教授王亦洲老师主持。

许逸伦博士报告现场

近年来，物理启发的生成模型备受关注，尤其是扩散模型（diffusion models），其在多个应用场景中均展现出了显著的性能提升和卓越的生成效果。讲者首先回顾了扩散模型的理论基础，其灵感源于非平衡热力学，包含两个核心过程：前向过程（forward process）将高斯噪声逐步引入图像，直至逼近纯噪声分布；而逆向过程（backward process）则需从纯噪声中恢复出清晰的图像。我们可以通过随机微分方程（SDE）对两个过程进行数学描述，其中逆向过程的实现依赖于对 score function 的准确估计，常用神经网络进行拟合。

针对扩散模型在实际应用中面临的采样效率问题，讲者指出，虽然逆向 SDE 方程存在对应的概率流 ODE 形式，求解 ODE 方程能够加快生成速度，但往往会导致图像质量的下降。因此讲者提出了 Restart 算法以有效平衡生成效率与图像质量：使用 ODE 求解逆向过程，在中间步骤时添加较大的噪声进行适当“回跳”，并重复该过程 K 次。从理论上分析，Restart 算法不仅享有和 ODE 一样的较小离散误差，同时还能比 SDE 更好地利用噪声来减小采样过程中积累的误差。其结合了 SDE 和 ODE 方法的各自优势，并在真实数据上展示出显著的效果提升。

其次讲者分析了扩散模型在处理多峰数据分布上的挑战：对逆向 ODE 求解过程中，当数据点移动到分布中不同类别的图片时，轨迹曲线会展示出较大的曲率。这主要是因为前向过程加噪得到单一模式的高斯分布，在逆向过程中模型需决定往哪一“峰值”处移动，导致在曲率较大的轨迹上采样速度减慢，并增加了模型的学习难度。讲者在论文 Disco-Diff 中提出用离散的隐变量来增强扩散模型：即引入离散编码器，用于表征不同的模式，然后通过 cross-attention 模块输入扩散模型，进行端到端训练。该方法有效解耦了不同模式上的分布学习，减小了 ODE 轨迹的曲率，提高了采样效率，并能降低所需的模型复杂度。

最后讲者还介绍了其他物理启发的生成模型，如借鉴静电力学思想的 PFGM 模型。该模型将数据点视为增广空间的超平面上的点电荷，可由电场线定义从数据分布到高维球面上均匀分布的双射。PFGM 中的前向和逆向过程则通过泊松方程（Poisson equation）进行定义。讲者进一步指出，当我们令增广变量的维数 D 趋近于正无穷时，泊松流模型可等价于扩散模型。后续的改进工作 PFGM++ 通过选择合适的维数 D，能够兼顾模型的鲁棒性和训练的难度。报告最后，讲者指出常见物理过程均可用 PDE 进行刻画，推导出样本如何随随时间而演化，从而定义对应的物理启发的生成模型。

此次报告引发了在场师生们的热烈讨论，大家就扩散模型的技术细节、物理启发的生成模型背后的设计思想等问题进行了深入探讨。报告在热烈的讨论氛围中结束。

合影留念

报告回放：

图文 | 叶航

往期讲座

本微信公众号所有内容，由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料，版权属北京大学前沿计算研究中心微信所有；从公开渠道收集、整理及授权转载的文字、图片和音视频资料，版权属原作者。本公众号内容原作者如不愿意在本号刊登内容，请及时通知本号，予以删除。

点“阅读原文”转报告回放链接

继续滑动看下一个

北京大学前沿计算研究中心

向上滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

“上海王”柯庆施之死的真相

静5青年讲座回顾 | 许逸伦博士谈物理启发的生成模型最新进展

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

“上海王”柯庆施之死的真相

生成图片，分享到微信朋友圈

静5青年讲座回顾 | 许逸伦博士谈物理启发的生成模型最新进展

您可能也对以下帖子感兴趣