查看原文
其他

未来媒体访谈×童欣:3D视频系统,轻松与朋友在线“确认眼神”


(本文阅读时间:19分钟)



编者按:远程办公的兴起,推动了在线会议系统的普及,什么样的在线会议能让会议场景更加沉浸、更具有交互性?


近日,微软亚洲研究院首席研究员童欣博士接受了新浪新闻、封面新闻联合推出的《未来媒体访谈》节目的采访。在访谈中,童欣博士介绍了微软亚洲研究院在 3D 视频会议系统方面的技术突破和相关技术的未来应用,并展望了 3D 视频会议系统将如何赋能工业界与现实生活,以及图形学的发展趋势。点击下方精彩的访谈视频,一起来看看吧!




以下为访谈实录:

主持人:大家好,这里是由新浪新闻、封面新闻共同推出的未来媒体访谈节目,细致入微的表情变化,自然的肌肤纹理没有一丝一毫的违和感。如果我不告诉您,您能看得出刚刚这几位参与者其实他们不在一个办公环境吗?这就是微软亚洲研究院的研究项目之一 ——3D 视频会议系统。今天我们也非常荣幸的邀请到了微软亚洲研究院首席研究员童欣博士,来给我们聊一聊在线会议的未来——3D 视频会议系统。童老师好!

童欣:主持人好。

主持人:刚刚我们从小片里比较粗略地了解到了,3D 视频会议系统它到底这个作用是什么,那么我们这里有一个很尖锐的问题了,在线视频会议其实已经不是一个新鲜的事物了,很多工作软件都带有在线视频会议的系统,那么我们想问的是微软的 3D 视频会议系统和刚刚我提到的这些有什么样的区别?

童欣:谢谢您,您问了一个特别好的问题,我想您看到的视频会议无处不在的事情,也在告诉我们,大家有很强的在远程与不同的人之间进行会议、进行沟通的需求。

我想大家看到目前的会议系统的时候,一方面它给大家提供了很多便利,但如果我们两个人或者多个人真正在同一个环境中开会,大家还是能看到一些区别的,比如最简单的,今天我们两个人坐在这里,我们可以有很自然的眼神交流对吧?我可以看到你很真实的所有身体的动作等等这些东西。

那么在多个人的交流环境中,大家如何切换话题,谁应该讲话,在一个自然的共同环境中,我们都很容易做到。但这在远程的会议系统中或者视频会议系统中,目前都是非常难以做到的,那我们做的这个3D 视频会议系统,最终想达到的一个目标就是希望我们创建一个这样的计算机环境,让大家在开会的时候,感觉就像在同一个环境中开会一样自然,同时为了达到这样一个目标,我们也希望我们的设备足够简单,然后通过一套设备的设置能够实现不同的会议场景,比如像多人对谈的会议,或者是大家一起工作的时候,我们叫做双边的交互,就是一边看着眼前的屏幕一边交互的这样一个场景。

3D 视频会议系统 VirtualCube

主持人:您跟我解释了以后我大概就明白了,比如说电话会议是1.0版本,普通的在线视频会议是2.0版本,那么微软研究出来的 3D 视频会议系统就是3.0版本,如果我们达到了3.0版本的话,这个门槛是不是很高?

童欣:我觉得可以叫做一个3.0版本,但同时就是说要达到远程的非常逼真的体现这个人的所有外观动作这样一件事情,其实一直是计算机图形学和计算机视觉的一个挑战。

为了做到这件事情,我们有三个需求,第一个需求是我们需要高保真,因为我们人在日常生活中和人交互的时候和人交流的时候,我们对人脸上所有细微的表情,他的动作什么是真什么是假,我们有非常严苛的标准在我们的意识里,这是第一件事情,所以我们要必须做到能够再现他所有细微的表情动作等等这些事情。

第二件事情,我们是一个实时会议系统,所以所有的东西我们希望能够达到实时的需求,所有的东西必须实时地呈现给对方,对方的反馈实时呈现给我们,我们才能做很好的沟通,这是第二件事情。第三件事情,为了实现这个目标,我们也希望我们所有的设备和捕捉手段足够的便宜,足够的方便,那么可以说这三个需求要同时达到,一直是一件非常难的事情。

在过去几十年的图形学和视觉的研究中,大家研发了很多的技术,比如在影视业中,通过非实时的大量的技术手段,我们已经实现了可以说和真人没有差别的绘制。但是它没法实时。在游戏中我们可以做到实时,但是这个形象还达不到完全逼真。在视觉中我们有一些捕捉手段,通过一些其他方法,我们可以捕捉非常逼真的人,甚至做到实时,但是捕捉的整个设施是非常昂贵的,所以现在我们需要在这三个方面同时做了突破之后,才能实现现在的这样一个会议的成果。

主持人:我曾经在2012年看过一个报道,当时微软就说我们已经开始开发 3D 视频会议的系统了,那么现在是2022年,十年磨一剑,那么像您说的基于当时对于图形图像的研究,还没有办法实现这样的一个设想,那么所以 VirtualCube 是如何实现的?

童欣:就像您刚才讲到的一样,3D 视频会议系统实际上在视频会议系统刚刚开始的时候,不论是心理学家还是计算机视觉和计算机图形学研究人员,就一直以此为目标,微软也一直在这方面投入了很多的精力做研究,包括您看到的2012年的这个 Viewport 这个系统,还有我们后来做的 Holoportation 都是朝着这个目标前进的,那么到现在为止,我们为了做现在这个系统和已有的系统有什么样的突破呢?在我们的系统中,我们有两个关键的技术:V-Cube Assembly 和V-Cube View 。

我们先来讲第一件事情,刚才讲到,我们希望每一个人在一个标准设置中,能够实现所有不同的会议场景,这里面有一个关键技术,就是我们需要把每一个人他所在的空间位置和一个虚拟环境的空间位置做很好的映射,有了这个映射之后,我们就可以把空间中不同地方的人通过拍摄的三维视频映射到一个共享的虚拟空间中,那么他们在虚拟空间中互相的位置关系和我们真实想模拟的物理位置关系是完全一致的。在这个情况下,我们通过不同的映射改变,就可以实现不同的会议场景,这是一个关键技术。

这个关键技术有了以后,为了我们实现不同会议者互相之间的沟通,我们就需要从不同的视角让每一个人看到的都非常逼真。这里我们需要一个叫 3D View 的技术。就是说我要显示这个视频,能够自由地切换我们的视点,从各个视点看起来都是非常逼真的。在这个方面要研发的技术,我们利用了传统的一些算法的基础思想,结合我们目前最先进的计算机视觉的技术,以及我们在深度学习方面的一些工作,最后实现了这样一个实时的算法,和已有的算法相比,在保证实时的前提下,该算法很大程度上提高了整个绘制的质量,实现了现在的这个效果。

主持人:在这10年计算机图形学这个领域,它还有哪些研究发展帮助了这一设想的实现呢?

童欣:在过去的几年中,我们把图形学的进展叫做智能图形学的发展,什么意思?就是说在传统中我们已经有了一些手段,这些手段通过一些软件,结合艺术家大量的手工工作,是可以产生高质量内容的。但在过去的几年中,图形学会结合硬件上的进展,比如深度摄像头这样的设备,以及已有的大量的高质量数据,和一些深度学习或者机器学习的算法一起工作,从而方便每一个普通的用户能够产生大量高质量的内容,并且是自动、低成本的产生。这些技术的发展或多或少都对我们整个 VirtualCube 所用到的技术都有所助益。

主持人:3D 在线视频会议系统除了让我们有一种在线的交流感,有一种我们在场一对一交流的这种沉浸感,它还能应用在哪些方面?

童欣:我觉得交流这个事情或者会议这个事情,实际上是一个无所不在的场景,如果大家有兴趣的话,你可以用任何搜索引擎在互联网上去搜索会议的图片,大家会发现一个非常有趣的现象,就是你会找到各种各样的场景,远远超出你的想象,除了大家正襟危坐的在会议室的场景,两个人坐在屋子里一边喝咖啡一边聊天,它也是一种会议的场景。

所以我觉得可能对 VirtualCube 来讲,一个最重要的应用就是提供给大家一个泛在的或者无所不在的非常自然的互相远程沟通的场景,这是我们的一个目标。那么再往后面一步,为了达到这个目标,我们所研发的技术,比如我们的捕捉设备的技术,包括我们绘制的技术,我相信对其他的内容生产,如我们的视频产生、高质量逼真的内容,不论是用到影视中还是用在游戏中,我相信这个对他们都会有所助益,将来也都会推动这些技术和这些应用的发展。

主持人:我们通常说一个设备被广泛的应用,甚至普及的一个前提就是说成本的控制。那么我们刚刚讲到 3D 视频会议系统,给我们带来一对一的这种现场交流的沉浸感,达到这样的效果,是不是它的成本是很昂贵的?

童欣:成本我们可以从两方面说,一方面我们在设计 VirtualCube 系统中,很注意的一件事情,就是我们希望在达到效果的同时,探索可能性的同时,尽量地采用商用的硬件(off-the-shelf)。所有这些硬件不是定制的,是从市场上你就可以买到的。

所以在 VirtualCube 的系统中,在捕捉方面我们用了6个微软的深度摄像头,Azure Kinect 摄像头,然后同时我们在整个计算上,用了现在比较先进的 GPU 来做这件事情。

6个 Azure Kinect RGBD 摄像头捕捉人像和眼神等动作

从另一方面讲,目前的所有这些设施,大家要马上用到每个人的普通环境中还是相对来说成本较高的,但是它的好处是所有这些东西都是可以量产的,那么随着硬件生产工艺的进步,这个普及,我相信这个成本会得到很大的下降,未来这条路通向每个人都能使用的程度是可以预见到的。

主持人:微软的创始人比尔盖茨先生曾经公开表示,因为疫情的发展加上现在通信设备的发展,我们有可能以后会改变工作的模式,也许有一天我们都可以到元宇宙里去开会了。我知道任何事物都有它的两面性,有它的优势就有它的劣势。那么我们 3D 视频会议系统有什么局限性,也可以说它的短板是什么?

童欣:你问了一个特别好的问题,也是一个尖锐性的问题。虽然虚拟办公环境或者远程办公变得流行或者变得更加重要,但是我们的理解,它并不是一个替代的关系,换句话说它并不会替代以前这种物理环境中大家的工作,因为在一个物理环境中,我们人的很多交流,是需要见到真实的人的,它的很多便利我觉得是无可替代的。所以到最后无论是 VirtualCube 也好,还是其他技术也好,都给大家提供了更多的可能性。还有一些环境中,我们认为最后会实现混合的办公环境,就是所有的技术手段,技术提供的所有可能性,大家会根据自己所在的情境,选择一个最有效的方法和别人做最有效的交流。

就像您刚才讲到的目前的 VirtualCube,我们专注的是提供一个高质量的、沉浸式的参与感很强的这样一个体验。但为了实现这样的一个体验,你对设备、你对这个环境可能就有一定的要求,如果一个人在车上,他要怎么实现一样的环境?特别是我们 VirtualCube 现在需要一个很大的屏幕,如果你只有一个手机,我们怎么努力可能都没法实现沉浸式的眼神交流这样一个体验。

这个是它的一个限制,但我觉得任何一个技术这样的限制可能都是存在的,最终的目标是说如何把这些技术融合在一起,提供给一个大家,我们叫做无差别的或者具有包容性的解决方案来实现最有效的沟通,我觉得这可能是我们最终的一个目标。

主持人:无论是 3D 的视频会议,还是这种各种跨界空间的交互办公,可以看出来微软一直在试图打破这种真实和虚拟的技术,再追求一个关键的元素,那就是沉浸感,我们不妨天马行空的想一想,除了办公方面的应用,还有哪些可以让这些智能媒体大显身手的地方?

童欣:其实我觉得办公是一个非常重要的事情,但是就像我们讲的,一个人的生活可以分成两部分,一部分是办公,一部分是普通的生活。比如,有两个老人,他们生活在两个城市中,由于各种各样的原因,他们没法互相去旅行了,那么我们也希望用这样的一个系统给他们提供一个沉浸式的、非常逼真的体验。我相信对他们个人生活质量的提高,幸福感的提高都是非常有用的。

那么同时这些技术的发展,大家可以看到在我们的日常的娱乐中,其他的媒体中包括新闻报道中。比如有一天也许真的可以用远程的方式你就可以采访我了,但可能我们没办法大家坐在一个屋子里,我相信对其他很多的应用,很多的我们的媒体也好,或者对生活也好,都能起到很大的作用。

主持人:我们上面讲到的这些 3D 视频会议系统都是在一个显示设备上呈现出来的,比如说大屏幕,未来计算机图形学能否结合虚拟现实的技术,将 3D 这个图像直接投射在我们真实的生活里,而不仅仅是屏幕上。

童欣:是的,这是跟显示技术的发展相关的。按照显示尺寸,我们可以分成两种,一种就像我们现在用的大屏幕这样的东西,它更多的是尺寸比较大,好处就是大家不需要戴任何的眼镜。还有另外一个就是增强现实技术(AR),那么微软也有产品,比如我们的 HoloLens 就是这样一个产品,它通过大家戴一个眼镜,就可以把影像呈现在大家眼前,它的好处是随着人的走动,这个影像可以跟着人去做各种移动。

物理屏幕的缺陷是你的位置比较固定,但是另外一方面你戴着眼镜的缺陷是不太方便,还有很多的限制。其实,即便是在大屏幕的呈现中,有投影的技术或者其他的技术来做这些事情,最后这些技术可能都会并存,融合在一起给大家提供一个无缝的虚拟和现实完全融合的场景或者体验。

就像现在新一代的年轻人,可能他们使用 iPad 这样的电子产品已经习以为常了,我的梦想是也许再过10年下一代人对他们来说不太区分什么是现实的,什么是虚拟的,从他们出生那一天起现实和虚拟就是很自然地结合在一起的,这是我们的一个愿景。

主持人:您刚刚提到的智能产品,我们就说现在手机已经是人所必备的一个智能的终端,未来能不能将上述我们提到的这些技术在手机上呈现,比如我想跟朋友分享一个我刚买的一个小物件,我给他拍一张照片发给他,他就能随意地拖拽、360度的观看物件。

童欣:这方面的技术其实微软在过去有很多的研究,最近一段时间大家可以看到我们有一个叫做 NERF 的捕捉技术,进展非常快,目前已经有一些比较成熟的或者说比较好的应用或产品来帮大家做这些事情了。就像您讲的,通过捕捉一个360度的视频,我就可以在里面很自然地实现一些拖拽,看这个物体。

然而目前相关技术的发展还有一些限制,比如说我虽然能看到这个物体了,可是我不好操作这个物体,当我把这个物体放在我的家里的时候,我希望它的光照所有体现的效果跟真实在我家里完全一致,这些方面还有很多的技术有待于大家进一步提高,把它变得更鲁棒(robust)变得更通用。但是我相信这些技术很快就会成熟,大家很快就能把这些技术用到自己的实际生活中。

主持人:您认为智能媒体和对其起到支撑帮助作用的图形学未来的发展趋势是什么?

童欣:从我们的角度来看,我觉得未来图形学的发展,我把它总结为几个趋势,第一个趋势叫智能化。在过去二三十年的图形学发展中,如果和人类做一个类比的话,可以说我们终于实现了农业时代,什么意思?我们发明了锄头,发明了镰刀,艺术家通过学会怎么用锄头镰刀终于能把粮食种出来了,但是普通人你是种不出来的。那么我们认为智能提供了什么,通过人工智能的技术,我们可以说实现了机械化,让普通人也能利用智能技术通过简单的交互就能把他心中想的东西创作出来,包括您说的看到的东西能够数字化成一个三维模型放到计算机里,这个趋势我觉得是非常明显的。在未来几年中大家能看到很多技术的突破,甚至一些实用的应用产生,我们把它叫作智能化。

第二个趋势是综合化或者叫集成化。就是说你去看很多的东西,除了我们做游戏等等这样一个三维的形体,它其实不光光有它三维几何或者外观存在。我们在游戏中要和它交互,每个人这样交互,比如刚才您讲到说扫描了一个物体,我要各个角度看,但是对大家来讲,我买一个东西除了看,我们还有别的需求,比如我想摸一摸它的质感是怎么样的,我想操作一下。所以每一个物体除了它的几何外观,还有很多的属性,比如它的物理学属性,材质是什么样的,甚至我想知道它的温度是暖的还是冷的。

所以这些属性其实在图形学或者其他的学科中,目前都是被单独处理的,每一个学科每一个领域只负责其中一小块,最后如果你想得到一个统一的计算表达,满足所有的需求,那么就需要这些学科的人坐在一起。同时通过各种技术的集成,包括打通各个领域的东西,真正提供一个物体的全表达,就是既有它的几何属性、物理属性、材质属性等等,各种属性都有,那么就真正可以做到我们在它里面可以做各种操作了。这个我把它叫做集成化或综合化。

人工智能技术会推动综合化的发展,因为大家可以看到深度学习技术提供了一种跨领域的方法论,一种统一的能力,那么最后一个我们可以叫做泛带化或者叫做平民化。以前,对于图形学技术大家觉得离我们非常远,只有专业人士拿到了,然后创造一些电影、游戏,我们只是消费者,从来不会去创作图形内容。我们希望,以后每一个无论是个人想创作他脑海里想象的东西,还是企业想用图形学的技术来模拟真实的世界做一些预测、规划的时候,这些图形学的技术能变成水和电一样的一种资源或者服务无所不在,每个人都可以经过简单的学习就能使用,能够在日常生活和工业应用中无所不在地起到它的作用。这是我们对未来的一个期望或者我们的一个愿景。













你也许还想看






您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存