北大-深度生成模型 | Deep Generative Models @PKU
关键词:深度学习,生成模型
编者按
2020年春季学期,北京大学前沿计算研究中心助理教授董豪通过网络开设了为期16周的《深度生成模型》研究生选修课程。
生成模型作为机器学习的一个子领域,在大量人工智能任务中得到了应用。近年来随着深度学习的突破,深度生成模型对人工智能各个子领域带来了大的改变,受到了学术界极大的关注,并在越来越多的应用中获得了突破。
该课程学习深度生成模型的基础学习算法,包括自回归模型、变分自编码器、生成对抗网络等。同时本课程将讲授深度生成模型在图像生成、计算机视觉、自然语言处理等方面的应用。最后,为了更深入地了解这个领域,同学们一起了解了前沿的生成模型技术和当前遇到的一些技术挑战,并开展了一些具体项目。
课程主页:https://deep-generative-models.github.io
←扫码获取课程内容
课程安排
Fundamentals
Week 1 | Introduction |
Week 2 | Autoregressive Models |
Week 3 | Variational Autoencoders |
Week 4 | Normalising Flow Models |
Week 5 | Generative Adversarial Networks |
Week 6 | Practice |
Research & Application
Week 7 | Evaluation of Generative Models |
Week 8 | Energy-based Models |
Week 9 | Discreteness in Generative Models |
Week 10 | Challenges of Generative Models |
Week 11 | Applications of Generative Models |
Week 12 | Generative Model Variants |
Practices
Week 13-14 | Paper Reading |
Week 15-16 | Group Projects |
同学有话说
朱峰,北大艺术学院18级硕士
刚刚结束了和深度生成网络课程相伴的一个精彩的学期,受益匪浅。我的研究方向是 CG 虚拟数字人,近期我完成了实时换脸直播端到端技术“图灵姬”。以下为我开发的换脸直播 DEMO,以及虚拟数字人 TTA(Text to Animation)DEMO。
换脸直播DEMO
虚拟数字人TTA(Text to Animation)DEMO
近年来,digital avatar 领域迎来了全新的机遇。2018,UnrealEngine4 官方推出超写实数字人 Siren、Instagram 虚拟网红 Lil Miquela 入选 TIMES 时代周刊“年度全球25位网络红人”;2019,陌陌旗下 app“ZAO”爆红,褒贬参半;2020,搜狗推出 “3D搜狗分身新小微”。以上工作代表着传统 CG 工程与 AI 深度神经网络结合之下商用赋能的可行性。出于对该领域前沿科技的探索需求,我本学期选修了董豪老师的深度生成网络课程。
在课程小组 Project 中,我和同组同学讨论了以开源程序 Deepfake 为代表的换脸技术目前的停滞。归根结底,是因为纯粹的 CV 工作没有必要刻意抛开 CG 工程上的经验积累。两者的结合,亦即通过深度生成网络改善优化现有 CG 流程,也许才是事半功倍的方向。下面的动图 gif DEMO 是我和同组同学对 many to many 模型的一次尝试。
董豪老师的课程安排,不仅基础知识讲解全面深入,更对各大前沿应用领域进行了视野的广泛开拓。从图像算法,到语音 TTS 相关内容,以及 NLP 领域探索等,都有关于业内最新进展的介绍与探讨。百度2019年提出,5G 时代中,HUI(Humanized User Interface,人形交互界面)将取代传统 GUI,成为下一时代最常见的人机交互界面。而深度生成网络的发展,正是 HUI 内容爆发的技术基石。董豪老师在课程中带给大家的前沿领域视野开拓,对于下一时代必将出现的“跨模态虚拟数字人(图像/语音/问答/知识图谱)”的催生,有着不可替代的巨大价值。
蒋鸿达,北大信科学院19级博士
关于生成模型对电影行业的影响
虚拟制作是电影行业很重要的组成部分,虚拟内容的创作,包括虚拟人物动画的生成、虚拟相机轨迹的控制等要素。传统的虚拟制作,需要艺术家花费大量时间精力进行建模、运动控制,为了使得结果更具有真实感,一段几秒的动画可能需要花费几个星期的时间制作。
随着生成模型的发展,自动化的动画生成方法开始出现,通过将大量已经制作好的,或者通过动作捕捉系统采集的数据,用生成模型映射将复杂的运动通过低维的控制参数进行表达,从而可以实现只需少量控制参数就可以自动生成自然连续的动画。
在相机控制领域,具有复杂语义的镜头语言是虚拟创作面临的最大问题。传统方法基于优化,只能通过预先人为定义约束来控制相机的运动,很难实现镜头语言的再现。而通过生成模型的方法,可以将镜头语言通过无监督的方式进行编码,然后在新场景中进行镜头语言的再现。
我们在 SIGGRAPH 2020 的工作中,利用 Mixture of experts 的思想,通过无标记视频数据训练,提取出电影视频中相机的运镜风格,然后通过生成模型,在新场景中生成带有与电影视频相同运镜风格的视频。通过输入不同的电影视频,就能控制生成得到不同的相机轨迹。
详情请见:SIGGRAPH 2020 | 基于样例的虚拟摄影和相机控制
课程项目
在这门课的课程项目上,我选择了图形学的另一个分支的探索:三维几何体的隐式表达学习。传统的几何体表示有体素、网格、点云等等,这些都是显示的表示形式,另一种隐式的表达形式则是学习一个函数 f(p),p 是空间中的点,返回 f(p)=1/0,表示点 p 是否在形状内部。
CVPR 2019 的 IM-Net 就是基于以上隐式表达学习形状的几何表示,并采用了多分辨率采样的方式选取用于训练隐式表达函数的点 p,我在复现该工作的过程中,发现该种采样方式会导致结果出现较多的外部噪点,因为采样点集合发生了突变,训练不具有连续性,而且,不同分辨率采样对应的点中间存在断层,点的采样不具有连续性。为此,我设计了“软边界”+渐进比例学习的方法,成功降低了训练结果中出现的外部噪点(下图中 (a) 是原形状,(b) 是多分辨率采样点训练的结果,(c) 是软边界渐进学习的方法)。
同时,我还比较了平滑后两种方法的插值效果,平滑去除了外部噪点,从整体形状上看,两种方法都实现了较好的形状渐变效果,但在一些细节表达上,(a) 多分辨率的方法出现了一些断点和粘连的结果,而 (b) 软边界的方法则有更好的细节效果。
课程体验
这门课不管是在理论性、还是视野性上都非常有深度,既有对生成模型的数学理论分析与论证,也有对现有生成模型的种类和相关研究的介绍与探讨,包括目前最前沿的研究问题和挑战。董老师作为深度学习方面的专家,对现有生成模型的发展历史与优劣对比都有清晰的讲解,并能给出大量有关的研究工作进行生动的讲解。
此外,除了课程的讲解,董老师也安排了实践练习、文章阅读展示以及项目探究。通过讲与练相结合,我对生成模型有了更深刻的认识、大大拓宽了科研视野,在实践中也发现了许多有价值的问题,非常推荐学弟学妹们选修这门课程。
授课教师
董豪,北京大学前沿计算研究中心助理教授。于2019年秋获得英国帝国理工学院博士学位。研究方向主要涉及深度/机器学习和计算机视觉,及机器人和医疗健康中的应用,目的是降低学习智能系统所需要的数据。他致力于推广人工智能技术,是深度学习开源框架 TensorLayer 的创始人,并获得 ACM MM 2017年度最佳开源软件奖。他在英国帝国理工和英国中央兰开夏大学获得一等研究生和一等本科学位。
图文 | 朱峰、蒋鸿达
Hyperplane Lab
Hyperplane Lab
The primary research interests are in the fields of Deep/Machine Learning and Computer Vision, with broader interests in Digital Healthcare and Robotics. Our goal is to reduce the data required for learning intelligent systems. The current topics include:
Unsupervised World Modelling: learning the representation of the world
Generative + Reinforcement Learning: learning to interact with the world
Generative + Computer Vision: learning to see the world
For more information, please visit: https://zsdonghao.github.io/
近 期 热 点
— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。
点击“阅读原文”跳转课程主页