查看原文
其他

2023计算机前沿技术研究生创新示范课程精彩回顾II

黄期瑞 | 周文俊 深大计算机与软件学院
2024-09-15

10月14日,计算机前沿技术研究生创新示范课程之“计算机图形学”如期而至,Prof. Daniel Cohen-Or 与Prof. Dani Lischinski分别带来题为“Textual Inversion”和“Controllable Generative Models”的两节精彩内容。

学有所思、学有所悟、学有所得。让我们通过两位同学的Lecture Review再次走入课堂,近距离感受前沿科技的力量。


Lecture 3 Prof. Daniel Cohen-Or 

Textual Inversion











学生

黄期瑞

很荣幸能够在本门计算机前沿技术课程中,听到Daniel Cohen-Or教授精彩的讲座,主题为“Textual Inversion”。作为图像生成及编辑领域的先驱,Cohen-Or教授的讲座令我们都非常期待。


在本次讲座中,Cohen-Or教授从宏观视角介绍了图像生成领域的发展脉络,并通过生动的实例展示了这一领域的成就。虽然当前扩散模型已经相当惊艳,能够生成逼真的图像,但如何根据用户提供的特定视觉概念进行定制生成是一个有待解决的问题。换言之,如何按照用户的个性化需求,将其宠物以艺术化的方式呈现在一幅画作中,或者根据其喜欢的玩具设计一个新产品?针对这一挑战,Cohen-Or教授提出的Textual Inversion方法是开创性的奠基工作。仅通过少量图片(3~5张)便能够提取出与特定视觉概念相对应的词向量,该方法不仅可以处理具体的物体概念,还能够应用于更为抽象的纹理概念。更值得一提的是,这些词向量能够自由组合,从而支持更多样化的视觉表达。



Textual Inversion启发了全球多个研究团队进行跟进研究。Cohen-Or教授的团队也继续从多个维度立体深入地继续探索。在时效性方面,他们提出通过训练一个专门的编码器来替代梯度反向传播,从而将视觉概念的提取时间从分钟缩短至秒级。在P+论文中,通过深入探究扩散模型的内部机制,发现了不同的隐藏层对应于不同级别的语义概念,进一步实现了视觉概念的精细化调节。在TEXTure论文中,更是突破二维图像的界限,实现了基于文本描述在三维网格(mesh)上生成纹理贴图,为三维AIGC研究奠定了坚实的基础。ConceptLab则是Cohen-Or教授的最新研究成果,该研究通过引入先验约束的方式,使得扩散模型能够生成在训练数据集中未曾出现过的视觉概念,展示的效果令在场的同学们惊叹不已!


Cohen-Or教授的风趣幽默同样令人印象深刻。在讲座期间,他与在场的学生进行了轻松的互动,并现场学习中文,营造出了愉快的氛围。在讲座结束后,同学们积极提问,涵盖了安全性、算法细节和未来发展趋势等多个方面。当有同学因过于激动而英文表达不流畅时,Cohen-Or教授也耐心地提醒同学放慢节奏不要紧张。


聆听Daniel Cohen-Or教授的讲座是一次非常宝贵的经历,不仅增强了我的学术认知,更让我亲身感受到了世界一流学者的风采,无比崇敬!


Lecture 4 Prof. Dani Lischinski

Controllable Generative Models











学生

周文俊

10月14日,来自以色列耶路撒冷希伯来大学的Dani Lischinski教授在深圳大学计算机前沿技术第四节课上给全体计软研究新生留下了深刻印象。回顾此次课程,Lischinski教授围绕可控生成模型(Controllable Generative Model)这一主题,生动形象地展示了这一技术的最前沿进展,并在技术细节上进行了相关的说明。这一课大大的拓展了我的知识面,让我对生成模型有了更加深刻的认识。


课堂上,Lischinski教授首先介绍了具有照片般真实感的图像合成是计算机图形学领域长期存在的巨大挑战,近期由于GAN和Diffusion Model的迅速发展,合成真实感图像的追求也慢慢进化到为用户提供可控生成的追求。在技术层面,Lischinski教授首先介绍了GAN模型自2014到2018年的发展脉络。以最初的GAN为基础,发展出DCGAN,Coupled GAN,PGGAN,StyleGAN等模型,图像的生成也变得更加可控。之后由于Diffusion Model的兴起与发展,生成模型的泛化性以及生成质量都得到了大大的提升,这一系列工作覆盖了从DDPM到最新的Stable Diffusion。



在铺垫完这些基础知识后,Lischinski教授重点介绍了一系列可控图像生成技术。在StyleSpace中,对StyleGAN进行了细致分析,发掘了在其隐空间上进行可控图像生成的潜力。在StyleCLIP中,通过引入最新的CLIP模型实现了文本驱动的图像编辑。尽管这些工作已经实现了惊艳的编辑效果,但是对图像的局部区域编辑依然有待解决。针对这个问题,Lischinski教授提出的Blended Diffusion可以把图像编辑限定在用户提供的掩码区域,实现了更精细化的编辑。


本次课的很多内容都令我印象深刻,Lischinski教授使用CLIP和生成模型相结合提出StyleGAN:在CLIP space中通过改变表征向量方向的方式,让生成模型变得可控。并在课件中可视化的展示了可控生成模型所带来的令人惊叹的结果,我们可以使用可控生成模型去改变人的年龄、姿态、表情而不会改变人物身份。在Blended Diffusion中,我们甚至可以根据需求去创造出场景中并不存在的对象。


在最后的问答环节,我清楚地记得同学们积极参与的情景。不管研究方向是否与生成模型相关,大家都被这个前沿领域所吸引因此表现得极为热情。一个个问题充满热忱和探究意味,不断地提出新问题并追根溯源,场面极为活跃。


课堂如春雨,新知润万物!讲课的精彩之处难以在短短的回顾中一一列举。Dani Lischinski教授的精彩一课不仅让我们对生成模型的了解更上一台阶,也让我们深刻领略到了科学的魅力,坚定了我们步入科学殿堂的决心! 



精品课程

扫码访问课程主页

学院官网开辟了“精品课程”栏目,第一时间发布课程资讯、学习动态和优秀学生作品。


欢迎全院老师积极联系加入,在官网分享传递自己的课程主页。


https://csse.szu.edu.cn/pages/courses

继续滑动看下一个
深大计算机与软件学院
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存