论国际前沿技术团队是如何做科研的

原创 2016-04-08 张正友 微软研究院AI头条

欢迎关注微信公众号：微软研究院

本文发表于《中国计算机学会通讯》2015年第11期

作者：张正友，微软雷德蒙研究院首席研究员

与传统的学科研究方式相比，我想给大家介绍一种新的相对前沿并体现国际研究趋势的科研途径，我称之为“基于场景驱动的研究方式”。这种研究方式首先要考虑端至端的完整场景，然后根据实际场景需求，积极组织调动同一学科内跨域合作，并密切联系不同学科的跨业协作。这里，我与大家分享一下我在这方面的部分科研经历以及对目前学术界研究方式的看法，并对该方式与传统学科研究方式存在的不同之处进行分析，希望能起到“他山之石，可以攻玉”的借鉴作用。同时，基于场景驱动研究方式的性质，我还会讨论如何组建一个高效合作的研究团队。

传统的学科研究方式

图1 计算机视觉架构

传统的研究方式多数以学科分类为基础，在同一学科内再划分不同领域做专项深入研究。以我从事的计算机视觉领域研究为例，可分为低、中、高三个层次的研究（见图1）。低层次的研究包括边缘检测、图像滤波和分割等；中层次的研究包括相机定标、轨迹预测和三维重建等；高层次的研究包括物体检测、表情识别、场景理解以及动作和事件识别等。假如你是一名教授，想从事相机定标方面的研究，并且你有三个学生，那么你可以让他们分别研究用点、线或者圆做定标。如果你有更多的学生，还可以按自己的兴趣和所掌握的资源，做更多的研究，比如与相机定标毫无关系的情感识别。很多人都这样做，也做得非常成功。

基于场景驱动的研究方式

图2 机器人导航系统结构

这个想法最早始于我在攻读博士学位时做的一个项目——机器人导航。机器人导航的场景是机器人从目前的位置安全到达目的地，并能避开障碍物。该系统需要完成三个部分（见图2）：首先，机器人需要知道自身所在的位置；其次，需要构建从某个点到达目的地的路线，并避开障碍物；第三，由于机器人要在一个不熟悉的环境里导航，因此需要创建周围的地图以便顺利完成场景任务。

为了成功实现机器人导航的场景，我们需要研究并开发那些能让机器人自我定位、自动规划路线以及自行创建地图的技术。为了能成功实现自我定位，需要识别周围的环境；而在移动的时候，机器人需要估算出自己已经移动的距离，即运动估计。这两者都依赖于立体视觉和三维重建技术。对于路径规划部分，需要计算出机器人可行走的空间，对路径进行合理规划以避开障碍物，这也依赖于立体视觉和三维重建。为了构建地图，也需要立体视觉和三维重建以及鲁棒的相机标定技术。按照这个场景驱动的研究思路，需要有多名学生分别做立体视觉、三维重建、相机定标、可用空间计算、运动估计、三维识别、机器人控制，等等。共同完成场景的需求决定了彼此间的分工配合，例如轨迹预测需要以三维重建为基础，而三维重建需要以相机定标为基础等。

这时，你脑中就能构建出不同于传统线性研究方式的新型场景研究框架：首先，可能需要近10名学生来组建一个实验室；其次，学生之间不能完全独立，他们需要互相配合；第三，彼此共生依赖，从而实现场景需求。

图3 沉浸式远程呈现框架

第二个场景驱动研究的例子是沉浸式远程呈现(immersive telepresence)，这是我目前在微软从事的研究项目之一。沉浸式远程呈现的目的是将不同地点的人进行合成，让不同时空的人感觉是在同一个时空下，进行面对面的交流。假设有三个人，其中一个在西雅图，一个在济南，还有一个在巴黎，通过计算每个人的局部三维信息，并加入物体表面质感信息和声音信息等，可以建立一个虚拟的三维音视频世界。然后，根据每个人的眼睛位置，通过合成渲染技术，让这三个人感觉是坐在一张桌子前面对面开会，见图3。

为了实现沉浸式远程呈现这一场景，不仅需要用户体验、音频视频信息捕获、视听分析、编码等技术，还需要将数据发送到云端进行视频解码，通过渲染得到结果。这当中涉及计算机图形学、计算机视觉、语音信号处理以及通信等各个方面。因此，对于这种多学科交叉的研究项目，既需要计算机视觉方面的人做三维重建，也需要一些人做声音捕获、声音分析，还需要一些人做信息解码、视频分析等。由此，你需要组织一批学生及不同领域的相关研究人员共同合作来完成场景构建。

当前基于场景驱动研究方式的可行性和局限性

这种研究方式的可行性包括：

● 第一，完成场景需求的交叉研究能够扩大实验室的影响力。传统学科研究的是一个“点”，而基于场景驱动研究的是一个“面”。面上产生的社会影响和带来的社会效益要远远大于仅仅围绕一个点所能产生的，自然也能带来更多的资金支持。

● 第二，这种研究方式对学生的能力培养也大有裨益。一个场景下，不同领域的学生可以互相交流，不必局限于自己的研究视角。大家共同合作、互相督促，彼此之间产生良性互动，从而提高团队的协作能力。

● 此外，该方式还能提高学生的责任心，他们互相依赖，在长短期时效下完成场景项目。

整体来说，该方式可以开拓学生的思维视野和增强积极协作解决问题的能力。我认为如果学生能够得到这样全面的场景驱动研究训练，会十分有利于其今后的职业发展。

这种研究方式的局限性则表现为：对教授或者实验室负责人提出了更高的资质要求。如果采用传统的学术研究方式，那么你只需要申请到资金，给学生分配各自领域的具体任务，然后检查成果。而采用基于场景驱动的研究方式，既需要你是一位优秀的学者/学科带头人，还需要是一位善思善行的管理者，能接受挑战，跳出自己的舒适区，有足够的激情去驱动大家一起做交叉研究，并适时妥当地调配资源，从而完成从点到面的场景指导。如果项目效果甚微，那么你必须有勇气承担主要的责任后果，因为这是一件众志成城的事情。

综上所述，如果传统学科研究是“闻道有先后，术业有专攻”，那么基于场景驱动的研究方式就是科技时代资源整合的人力挑战，我相信这将是今后科研方式的主流方向。

你也许还想看：

工业界 vs. 学术界：应该如何做选择？

刘铁岩：在微软大学的三次华丽转型

罗翀：念念不忘，终有回响

小编的话：

他山之石，可以攻玉。在科研中苦苦挣扎的你，读完这篇研究方法文章，有没有对这种基于场景驱动的研究方式跃跃欲试呢？快戳右上角分享到朋友圈，也许你的导师看到后，也会尝试哦~

在此前的推送《Seeing AI：计算机视觉十年磨一剑，打造盲人的“瑞士军刀” 》中，大家都发表了精彩的真知灼见~截止到小编发出今天的推送之前，@风骚的小扣子、@墨水和@胡庆拥三位同学的留言获得了最高的赞同数，请这三位同学看到之后请在本篇推送底下留言，写下你的邮寄地址，最新一期#不对外发售的#微软亚洲研究院内部院刊《Matrix》就是你的啦！

还是老规矩，我们送《Matirx》的活动继续惊喜不停！在本条微信下方留言，点赞数最多的评论我们会分别送出一期最新的《Matrix》杂志，快来留言和小编互动吧~！！

微软小冰住进微软研究院微信啦！快去和她聊聊天吧。

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

论国际前沿技术团队是如何做科研的

传统的学科研究方式

基于场景驱动的研究方式

当前基于场景驱动研究方式的可行性和局限性

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

论国际前沿技术团队是如何做科研的

传统的学科研究方式

基于场景驱动的研究方式

当前基于场景驱动研究方式的可行性和局限性

您可能也对以下帖子感兴趣