首席研究员童欣:深度学习联姻计算机图形学,机遇与挑战并存
The following article comes from 新智元 Author 新智元
编者按:自上世纪60年代,传统图形学在工业和娱乐产业中不断被应用、发展,现在图形学产业化已经非常成熟。然而在互联网的浪潮中,图形学却遭遇发展瓶颈,以解决图形流动问题的“网络图形学”应运而生。目前,网络图形学已实现基础层次研究,未来发展态势良好,仍需国内图形学界的共同努力。
本文中,微软亚洲研究院网络图形组首席研究员童欣从多方面展现计算机图形学的研究和发展情况,结合深度学习技术观测目前的领域格局,并分析计算机图形学在具体方向的应用情况。本文由新智元授权转载。
微软亚洲研究院首席研究员 童欣
1993年毕业于浙江大学计算机系,获工学学士学位;1996年获浙江大学计算机系硕士学位;1999年获清华大学计算机系博士学位,同年加入微软亚洲研究院。目前为微软亚洲研究院网络图形组首席研究员,主要从事计算机图形学方面的研究。
童欣在微软做了近20年的图形学是什么?与计算机视觉有什么关系?在 AI 的发展上会发挥什么样的作用?新智元近日专访了童欣,和我们分享了网络图形学的最新进展以及深度学习为这一领域带来的改变。
博士毕业到现在,童欣在微软亚洲研究院做研究已经有18个年头。微软亚洲研究院是中国AI领域当之无愧的“黄埔军校”,培养了大量目前在行业起到中流砥柱作用的中坚力量。在AI迅速发展的浪潮中,许多人在这里来来去去,童欣从毕业后一直留在微软,成为了名副其实的“老兵”。在研究院内部,人们亲切地称他为 “童姥”。
对于为什么一直选择留在微软,童欣说:“无可置疑,这里有一批如此优秀的人汇聚在一起做着我们所喜欢的图形学研究,这里创造了国内图形学研究最宽松和开放的环境,这些才是吸引我在微软亚洲研究院乐业的魅力所在。”
站在风口,猪都飞起来了,为什么我没有?
童欣:“有传言说,如果你站在风口,就算你是一头猪也能飞起来。可是我这么瘦的一个人,站了这么久,怎么还没飞起来,这到底出了什么问题?”
到底什么是网络图形?
童欣在接受新智元的专访时介绍说,所谓的网络图形学,或者说互联网图形学,本质还是图形学,但是我们希望相对传统的图形学能有些不一样的东西。
传统的图形学起源在上世纪六十年代,经过几十年的发展,传统的图形学在工业和娱乐产业中得到了非常广泛的应用,产业化已非常成熟:
计算机辅助设计与辅助制造。小到我们身边日常生活的物品,大到飞机汽车,计算机辅助设计和制造已经广泛的应用于工业生产与制造中,并形成了和图形学相对独立的分支出来。
游戏、影视中的图形特效。从完全由计算机生成的动画片,到大家在手机,游戏机上打的游戏,都包含了图形学中很多的研究成果。
科学计算可视化与信息可视化。通过图形表示,展现抽象数据的属性,方便大家快速,准确的理解数据,做出决策。这里面既包括用于科学计算,医学应用的可视化技术,也包含近几年兴起的信息可视化与可视分析技术。
这些成熟的产业化,反过来推动了图形学研究几十年的发展和繁荣。但是在传统的图形学中,我们会发现整个图形内容的生产模式从开始到现在是一致的,就是由专家做出高质量内容,分发给普通用户消费。随着互联网的发展,我们发现图形学不但没有因此受益,反而遇到了发展的瓶颈。那么我们提出网络图形学,就是希望要解决图形内容生产的everyone和everywhere的问题。也就是让图形在互联网上在线流动起来,让任何人(everyone)方便地在任何地方(everywhere)可以创造可视的媒体内容。不但能创造,还能方便的分享和享受这些东西。
计算机图形跟计算机视觉是一对“好基友”
那么图形学与时下流行的计算机视觉是什么关系?
童欣告诉新智元,一个简单的说法,图形学和视觉是两个相反的过程,图形学是给定所有三维的场景,如光照,材质,动态信息等,我们来正向的生成图像或者视频。而视觉是给定图像和视频,计算机来恢复里面三维场景的所有信息,并进一步理解场景中的语义。
但是由此认为图形学比视觉简单,或者两者正好相反就错了,因为这两个学科本质上是一个硬币的两面,他们里面的核心是真实世界的物理规律和人的理解创造过程。计算机视觉和计算机图形二者的界限没有这么清晰。两者有很大一部分重叠的研究领域,比如三维重建,材质建模,人体动态捕捉和重建,计算摄像学等。而不重叠的领域又可以相互借鉴,可以用“一对好基友”来形容。
举例来说,我们看到一个图像的时候,图形学可以把背后的物理成像原理、场景中形状和材质的特性,以及相机成像中一些处理步骤告诉你,然后当人去设计理解这个图像的算法时,这些物理规律和特性可以帮助大家对图像加入合适的先验假设和条件,从而得到更为有效的视觉算法。另一方面,视觉对图形学的研究也有很大的启发和帮助。为了生成真实感的图形,创建逼真的三维场景,我们的内容从哪里来?这就需要视觉中很多技术的帮助。童欣说:“比如我做一个可乐罐子,我可以拿相机拍下来做三维重构,也可以通过拍摄大量的图片直接重现这个可乐罐子在不同视角,不同光照下的图片。”
深度学习并不会席卷计算机图形学,也不可能解决所有问题
谈到机器学习和计算机图形学关系,童欣认为:“图形学其实一直是个开放的领域。很多人好奇我们图形学到底用不用机器学习技术,我们其实很早就在使用了,但是在图形学研究里,我们称这类方法为数据驱动的方法。数据驱动在图形学的历史非常悠久,现在当然也包括了深度学习这一技术。”
和计算机视觉中深度学习已经渗透到几乎每一分支不同,深度学习似乎目前尚未席卷计算机图形学(Computer Graphics)的各个领域。对此,童欣认为,这方面的原因有几个方面。一方面,图形学中使用的三维表达多种多样,并没有统一的表达。和图像、视频这些表达不同,如何有效的设计一个通用的针对3D 图形数据的深度学习模型(就像专为图片设计的深度卷积神经网络CNN)还是大家在研究的一个热点问题。另外,在图形学的很多领域,大规模高质量的数据集还很缺乏。如何有效的产生这些高质量的图形数据本身就是图形学研究中的核心问题。最后,在图形学很多领域,比如绘制,大家对结果的物理正确性和算法实时性有非常高的要求,在这些方面如何有效的利用机器学习技术,包括深度学习技术,发展出比目前的算法更好的解决方案,还需要解决很多问题。
同时童欣提到,挑战也是机遇。在近几年中,图形学研究中大家也开始积极探索如何利用深度学习技术解决不同的图形学问题。在今年的SIGGRAPH上也出现了很多深度学习、和机器学习相关的论文,其中很多都是有华人作者参与的。除了微软亚洲研究院发表的三项相关的工作,国防科大徐凯副教授等人在形状的结构分析方面的工作,港大的俞益州教授和潘晓光博士等人在基于草图的人脸表情建模方面的工作都是非常具有启发性的工作。从这两年的论文也可以看到机器学习,特别是深度学习也得到了图形学研究人员越来越多的关注。
最后童欣评论道:“深度学习是个很好的工具,但是在图形学里,很可能深度学习并不会席卷一切,也不可能解决所有的问题。因为内容的生成本质上是比图像理解更难的一个问题。一方面我们希望能够理解人们的语义和描述,能够把这些歧义的抽象的想象和描述变成具体的确定性的图形内容。另一方面,我们要求生成的内容必须具有物理的合理性,同时具有丰富逼真的细节。这一逆向的生成过程在深度学习中,也是大家目前才刚刚探索的一个问题。最后可能还是百花齐放,殊途同归,通过不同方法的结合达到最终的目标。”
基于八叉树的卷积神经网络,降低三维形状分析计算量
在采访中,童欣也简单介绍了微软亚洲研究院今年在SIGGRAPH上发表的三篇和深度学习有关的论文。第一个是用于三维形状分析的基于八叉树的卷积神经网络。
通常用CNN做二维图像分析效果很不错,Nvidia也有专门的库。但是3D图形一般用不规则连接的三角形网格,或者点云来表达,那么如何把处理规则数据的CNN用在处理不规则的三角形网格或者点云上?就变成了大家首先要解决的问题。
传统的数据表达会导致计算太复杂!
一个直观的方案是在空间做一个规则网格的体素表达,这个形状占到了的体素就标记为1,否则就标记为0。如果把这个三维的规则网格直接用CNN做,运算复杂度会很大。分辨率稍微高一点,训练的内存开销和速度都会承受不了。往往一个32*32*32这么小的,连形状细节都看不清楚的规则网格都做不动。
另外一个解决方案是从各个角度绘制大量深度图,再把图片摞在一起来做CNN,这种方式可以解决很多问题。但是要拍多少张图片才够?从哪个角度绘制?我们没有统一的解决方案。如果形状有内部结构或着凹下去的部分,这种方法很可能会丢失这部分信息造成后面算法性能下降。还有一种方案是沿着表面做CNN。这样做的主要问题在于,这需要一个流形的形状表达,对点云却无能为力。同时,大部分表面无法没有误差的展开到一个平面上来一定有一些地方被拉伸或扭曲,也造成算法性能的损失。
童欣介绍:“我们的工作是,利用图形学中非常流行的八叉树结构,把空间一分为八,有物体的部分留着,没有的就标记后扔掉,留下的继续细分。在做卷积的时候,只在空间有物体的那个八叉树的分支上做。这样算法需要的空间和速度和做一张图像的复杂度相似,从而可以对更高分辨率的三维形状进行分析。基于这一想法,我们做了一个GPU上的优化实现,允许用户使用大部分基于图像的CNN模型,充分的发挥了CNN的优势。”
CNN结合半监督学习结合,挑战表面材质生成难题
另外一项很重要的与深度学习相关的工作是:用深度学习自动生成物体表面材质。
什么叫表面材质?材质决定了物体在真实光照下的颜色,反光和表面的外观细节。光凭形状无法分辨这个可乐罐子是塑料的,还是金属的,是磨砂的,还是抛光的。只有加上材质信息,有了颜色,反光、高光等,我们才知道这是个铝的磨砂罐子。
材质在图形学渲染中非常重要。但是生成很真实的表面材质一直是一个很困难的事情。童欣表示:“一个有经验的艺术家可以根据自己的经验,从一张照片出发,通过Photoshop,经过很多复杂的图像编辑操作,产生相应的材质贴图。那么如果艺术家可以做得很好,那我们可不可以利用深度学习技术从图片出发,自动做出高质量的材质贴图?”
可是,这里面的挑战是,如果我们用传统的CNN的训练方法,我们就需要输入很多照片和他们对应的真实材质的标定数据。但是我们很难找到大量的图片和对应的材质。否则我们也不需要研发这个工具了。
童欣说:“我们的解决方法是,能够利用用户给的少量输入图片和对应的材质标签,以及大量的Internet下载的没有材质标签的图片一起,通过一个新提出的自增强的训练方法结合绘制算法来训练CNN,这一方法取得了很好的效果。这是针对图形学问题的一个新的半监督学习的算法。我相信这一算法具有潜力来帮助解决更多的图形学视觉的问题。”
而另一项工作,则是微软亚洲研究院视觉计算组袁路和廖菁研究员等人所提出的新的图像风格化算法,可以生成高质量的和内容相关的图像风格化结果。这一成果也再次说明图形学、视觉研究之间的相关性。
VR只是媒体而AR是平台,四大技术快速发展,爆发期将近
VR/AR/MR 跟图形学是密切相关的一个应用方向。在这个方向上,微软已经发布了HoloLens这一在MR(混合现实)方向的主打产品。不仅仅微软,Facebook、苹果、谷歌等巨头也已涉足MR。对于这个方向,他也有一些观点。
大家喜欢把VR和MR/AR放在一起说,但是童欣认为两者有本质的不同——VR更多的是一种新的媒体形式。而MR/AR是一个新的平台,本质上是一个基于语义的地理位置的服务(semantic locationservice)。童欣说:“两者虽然也有一些共同点,但是在关键的应用场景上最终肯定要分道扬镳。”
任何用到媒体的场景如娱乐、教育等, VR都会渗透。而AR/MR的应用场景,远比VR要广得多,它会变成你生活中一个无处不在的平台。理解本质后,可以再探讨VR和AR/MR是否会在应用层面爆发。
童欣认为,对于媒体最关心的内容生成和传播。VR现在还是很难生成体验非常好的内容给用户。VR需要用户带着头盔,用户需要花费额外的精力克服不适感,这意味着用户对内容的期待比现有的媒体要高一个数量级。糟糕的是,我们现在没有特别好的手段,帮助用户产生真正超越目前可视媒体的更高质量的媒体内容出来。拿VR视频举例,我们面对的是画面粗糙的颗粒感、交互的不便,视觉感受和身体其他感官体验的分离。这不仅仅是图形技术的问题,而是一系列技术都没跟上。
图形上的问题在于,如何捕捉更高分辨率,视点可自由移动的视频。第二,从传输机制上说,如何压缩内容,减少延迟。第三,从交互意义上说,屏幕就这么大分辨率,我要看某个细节的时候,如何自然交互,放大、特写这一部分的内容。VR带给用户的体验还没有超过给用户带来的额外负担,任重道远。AR/MR也有很多技术难点,但是这些技术难点在最近几年得到了一系列突破和快速发展:
1. SLAM定位技术,现在发展很快很好
2. 识别技术,识别用户所看到的,所交互的东西是什么
3. 手势和视线跟踪技术,面部表情跟踪技术,用于自然交互
4. 显示技术,如何实现更轻的头显和更大的视角
童欣认为,以上关于AR/MR的每个技术离完全成熟都差一点火候,但是也在飞速发展,所以他认为AR/MR的爆发很快就会到来。
童欣告诉新智元,在MR的普及方面,微软也在跟很多企业合作,来探索在不同实际场景中的应用。例如跟蒂森克虏伯(Thyssenkrupp)合作电梯检修,跟沃尔沃合作做汽车设计,还有医学的解剖教育等等。对微软来说,现在更重要的是建立健康的生态系统。
微软网络图形组:培养了一大批中国图形学的人才
从2001年成立至今,微软互联网图形组培养了一大批中国图形学的人才,这是整个微软亚洲研究院在中国互联网发展所扮演的角色的一个缩影。
童欣说,目前图形学在国内的发展水平相当好,在很多研究方面达到了国际一流水平。国内的很多高校,如清华,浙大,中科大,山大,深圳大学,北大,中科院都有能力发表高水平的SIGGRAPH论文。国内图形学界活跃的一些著名学者,比如清华大学的徐迎庆教授,刘世霞副教授,浙大的周昆教授、刘新国教授,中科大的刘利刚教授,香港大学的魏立一副教授等等都曾经在微软亚洲研究院的图形学组工作过。
童欣说:“国内图形学界的各位前辈给图形学的发展打下了坚实的基础。图形学界大家都很团结,都想把图形学的产,学,研做的更好。因此这些年图形学在中国发展的很好,大家努力做出了很多世界一流的成果。微软亚洲研究院很高兴能够参与其中,和大家一起努力,为这些发展做了自己的贡献。除此之外,网络图形组给微软以及产业界也做过很多贡献:微软开源框架 CNTK 里的视觉分析算法和GPU优化方面;XBOX平台上对原有平台的游戏支持,以及微软很多游戏中所使用的绘制建模技术等等。这些技术应用实实在在的推动了产业的进步”。
展望未来,童欣对网络图形学的未来非常乐观:“我们其实刚刚走完了图形技术发展的基础层次(LowLevel)的研究。而在上面一个层次,如何通过用户的简单输入和对结果功能、使用场景的理解进行更为智能的内容创作和交互还是大家刚刚开始探索的问题。而如何通过对用户的语言输入和理解,帮助用户自动的生成高质量的可视内容,和完全打破虚拟与现实界限的交互技术才是网络图形学的最终目标。我们离这一目标还很远,但是我们正在向这一目标奋力前进。”
你也许还想看:
● 对话|首席研究员童欣:从长远看,AR的应用范围远比VR广泛
● 讲堂| 童欣:数据驱动方法在图形学中的应用
感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。