赛先生专访 | 微软亚洲研究院芮勇：从基础科研开启革命性突破 | 自由微信

查看原文

其他

赛先生专访 | 微软亚洲研究院芮勇：从基础科研开启革命性突破

2016-05-19 赛先生记者察日苏 微软研究院AI头条

欢迎关注微信公众号：微软研究院

“

微软的经验是，如果想要把一件事情做好，一定要从基础科研开始。

”

芮勇在“科学中国行”讲座现场

近日，IEEE（国际电气电子工程学会，全球最大的专业技术组织之一）计算机学会将本年度的Technical Achievement Awards（技术成就奖）颁发给了微软亚洲研究院常务副院长芮勇，理由是“其在多媒体分析与检索领域的开创性贡献（For pioneering contributions to multimedia analysis and retrieval）。”该奖设立于1985年，旨在表彰过去10-15年中做出的显著推动本领域技术进步的卓越研究和贡献。历史上获得此奖的学者包括IEEE计算机学会的首任主席EdwardJ. McCluskey博士，以太网络的发明人Robert M. Metcalfe博士等人。芮勇形容自己获奖是“Honored and humbled at the same time.”

相关反馈理论的萌生

芮勇是南京人，早年就读于东南大学自动控制系，而后保送至清华大学攻读硕士，并考入伊利诺伊大学香槟分校(UIUC)攻读博士。他自言是个幸运的人，90年代中在UIUC读博士，那时互联网刚刚兴起，连浏览器都还没有，更没有互联网搜索引擎。就是在这样的背景下，芮勇独自开始了图像搜索研究。那是一张白纸，给你无穷的想象空间。

30年前，图书馆就是个浩瀚的海洋。在找到你所需的信息之前，你务必要通过一个小抽屉，翻阅Index card（索引卡）来定位。当然这还需要技巧，因为很难一下子就找到想要的内容，简单的一个找资料的过程就会花费掉大量时间。

在现代人看来，这是难以忍受的低效，但在30年前，人们就是这么做的，要知道那时候还没有Microsoft和Google。好在当时的人们就已经在思考这方面的变革，“数字图书馆”项目应运而生，芮勇也身在其中。不过他想得更远，不仅仅是文本，多媒体、图片、视频、音频等这些是不是也可以搜索出来？再往前一步，不光是可以搜索，能不能把这个作为一个Query（查询），用一幅图片搜出更多的图片？这些思想火花一旦在脑海里出现，便难再熄灭。

当时，绝大多数人都是从机器视觉的Low level的Feature开始，对图片进行纹理、色彩以及物体形状的分析，然后寻找相似的图片。年轻的芮勇则独辟蹊径，走了另外一条道路。“我本硕学自动控制，这里面有个很有意思的理论叫控制（反馈控制是指将系统的输出信息与输入信息进行比较，并利用中间的偏差进行控制的过程）；博士读计算机，期间又读了很多跟ACM SIGIR(美国计算机协会信息检索专业组)、搜索有关的反馈，我当时就在想，这些反馈的机理是否可以应用在多媒体搜索上面？因为多媒体更需要反馈，一段文字就是一段文字，这很容易找到；但是一张图片就是一些Pixels（像素），除了0就是1，人想搜的东西和计算机能看到的东西事实上相差很远。”芮勇说。

曾经有人尝试用图片搜索来匹配一位穿着黄色衣服的女士，得出的结果居然是一条跟她长得有点像的狗，这样的结果让人大失所望，但这确实是传统图片搜索的局限：仅能从纹理和色彩上进行分析，在语义层次上面还差很远，这就需要Relevance Feedback(相关反馈)来支持。得益于芮勇的独创性研究，多媒体检索往前大大迈进了一步，相关反馈理论后来引导了很多研究人员、学者沿着这条路继续向前走。即便到了今天，我们依然可以看到众多商业化多媒体的搜索引擎，或多或少都用到相关反馈。

多媒体搜索领域的革命性突破

“假如给您10个视频，编号按照1、2、3…自然数列排序，其中有一个视频有个小孩在笑的片段，怎么能够迅速找到？”

以往我们想要在视频中完成搜索，基本是两个办法：快进和快退，但芮勇却给了我一个新的答案：创建视频目录（Constructing table-of-content for videos），并由视频生成文字（Video to text）。

把一个没有结构化的视频分成不同的Short（节），节再分出一些Keyframe(关键帧)，不同的节组成一个场景，叫Scene（章）。这就好比一本书，前几页要有个Table-of-content(目录)才方便检索。芮勇的做法就是创建视频目录，让一个无结构化的流媒体自动生成章和节，然后知道每一个节代表性的关键帧是什么样子，这样很容易就找到你想要的部分。在此基础上，让视频生成文字，即从一段段的视频生成人类可以看懂的一句话。这有些类似于图片搜索领域的图片生成文字（Image totext）。

从计算机视觉的角度来说，图片分析最早是抓出一些图片的点、线、面等，然后再看能不能给图片打上Tag(标签)？如果图片里面有只小猫、小狗或者植物，要看可否读取出来？这就到了识别阶段。如果把图片給计算机看，它能够根据图片的真实内容生成一句话，比如：两匹棕色的马在绿色的草地上边走边吃，这就说明它看懂了，理解了这不是一匹马，而是两匹马，不是红色的马，是棕色的马，还一边走一边吃。今天的技术已经可以在某些领域里实现这个目的，但更难的是给计算机一段短视频，让它来告诉人视频里在发生什么，让计算机生成一句人类能够懂的具备画面动感的话。而这个更难的任务，已经由芮勇的团队实现了，在芮勇展示的一段短视频中，计算机准确描述出了这个场景：一个运动员骑在一个飞奔的摩托上进行比赛。

《赛先生》了解到，该项成果刚刚被CVPR(国际计算机视觉与模式识别会议)所收录，芮勇将于今年7月赴大会作报告。

芮勇

人工智能的过去、现在和未来

早在1990年前后，芮勇就尝试使用人工神经网络(ANN)去预测某几个省下一周的用电量是多少，这样就可以最优化这几个省的水电厂、火电厂该发多少电，保证在最省火电的情况控制最大用水。

芮勇最初写的ANN（人工神经网络）就是一层隐含层、一层输入层和一层输出层，当年一层隐含层的ANN和现在的DNN（深层神经网络）有很大区别。后来芮勇没有继续写第二层隐含层，在他看来当时的条件还不支持他这么做：第一，训练样本不够大，因为有了第二个隐含层的时候，可调参数太多了，可能会过度拟合；第二，这个算法本身也有很多挑战，基于误差反向传播算法（Back Propagation）的ANN，每一层从错误求偏导，对每一个参数求偏导，当求第二次偏导时，要么是0要么就是1，算法所限使得这个网络不稳定；第三，计算能力也很弱，当年就是在一台386上面跑。数据量小、算法本身的缺陷和计算能力弱等原因，制约了ANN的发展。

90年代末期，SVM(支持向量机)开始取代ANN；到2009年的时候，ANN的发展有了新的名字DNN，隐含层变得很多很多，中间的激活函数用得也不一样，求偏导不是那么困难了。现在很多人谈论CNN（卷积神经网络），严格来说，CNN也属于DNN的一种，对二维图片的处理非常有用。但深度学习也包括一些非ANN做出来的东西，如果层数很深的话，也可以称之为DNN。我们今天用到的绝大多数的深度学习，同义于多层隐含层的ANN。

过去的八九年间，几乎在语音识别、语音合成、OCR（光学字符识别）、计算机视觉等领域比赛里面，获得第一名的基本都是用深度学习来做的。去年底，微软亚洲研究院的孙剑等人开发出了152层的深层神经网络，这是在已公开的资料中最多的层数。但苦恼的是，深度学习经常被诟病为黑盒子。你做好了，你也不知道为什么做好了；另外一个Task，你把它放进去，结果又不好了，你也不知道为什么结果就不好了。在芮勇看来，深度学习在理论方面的分析还欠缺火候，今天我们把深度学习当做一个工具来用，在各个领域都感觉不错，但为什么好？为什么是23层而不是25层？为什么每一层是1024而不是2048？深度学习的理论架构是回答不出来的。今天我们用到的目标函数还是跟50年前一样，但还有很多其他目标函数为什么没有去选用？怎么去做？这一系列的问题，都等着深度学习的研究者们来回答。

当问到人工智能的发展是不是也会遇到瓶颈？芮勇认为，很多事情的发展都是螺旋式上升的，就像ANN一样，在80年代末90年代初专家系统没落时，ANN兴起；到90年代末ANN走不动了，SVM（支持向量机）出来了；随着数据量更大，人们想是否可以在抽取Feature（特征）的同时，训练一个分类，于是更深度的DNN兴起，这就是一个循环上升的结构。“今后一定会遇到一个瓶颈，但是会因为某些别的条件发生改变，它又会有一次飞跃。“芮勇说。

人工智能的发展是否会威胁人类？

芮勇笑着说，如果你和真正在第一线做人工智能研究的学者交流，他们一点都不担心。大众的焦虑在于他们混淆了弱人工智能和强人工智能两个概念。

在弱人工智能领域，慢慢都会产生一些突破，比如说围棋、国际象棋等，只要在这些规则清晰、容易量化、可计算的领域，机器慢慢都会做，而且做得比人要好。但有没有一个机器能够在非监督学习的情况下，自己写出一段程序来战胜一个国际象棋大师？这才是最难的地方（强人工智能）。

可以肯定的是，任何有规则的、而且规则能够量化的事情，今后机器都会做，而且比人类做的都要好。如果一定要预测强人工智能到来时间的话，芮勇用“Never say never.”给出了回答。在他看来，这一天还非常遥远，人类不必过于担忧太远的事情。强人工智能在走近，人类的水平也在进步。

在芮勇看来，人工智能如果要做好的话，必须要有Common sense(常识)。对人类而言，几乎都不会刻意去想常识究竟是什么，但潜意识里面我们一直在用常识。

举例来说，小学时很多人都解过“鸡兔同笼”的数学题，总共有多少只鸡？多少只兔？总共有多少只头？多少只脚？人算很快就有结果。同样的问题让计算机来解，在非“人工＋智能”（指的是机器和人一同协助）的情况下，计算机想要做好是非常困难的，因为计算机的常识和人类的常识相差甚远。在“鸡兔同笼”这道题里，老师是假设学生有常识的：一只鸡有一个头、两条腿，但机器无法理解。哪怕我们先把这部分的hardcode（硬编码）写进去，但明天老师变了个题目：鸭狗同笼，人类来解依然没有问题，但计算机就崩溃了：什么是鸭？什么是狗？我们继续改题，变成了“鸡兔同屋”，机器又不会了：屋又是什么？人工智能要慢慢往人类智能的方向发展，首先要解决的一个重要难题就是今天很多人都忽视的“常识“问题。这对人来说简单至极，但对机器来讲是难于登天。

人工智能与人类的关系如何定义？

有人欢迎人工智能的到来，也有人担忧人类的未来，尤其是AlphaGo在围棋上击败了李世石九段，人工智能究竟会发展成什么样子？

在芮勇看来，由于那些规则清晰的工作任务都会由计算机做得越来越好，因此关心人类未来，真正应该问的问题是：哪些行业里面的哪些工作会被人工智能所取代？以速记员为例，很简单的一些常规速记工作会被取代；但是一些高端的、当事人说话有口音的、需要专业背景知识的速记工作则很难被取代。因为计算机没到这个水平。总而言之：任何一个行业中的低端的、可重复性的、不具备创造性的工种会被取代。

计算机和人是各有优劣势的，计算机只是一个工具，如果我们回到过去，早期人类种地的时候用石头刨坑，后来改用青铜器，工业革命后出现了拖拉机，拖拉机的力气比人大很多，和人类是互补关系。人工智能也一样，会在一些人类不太强的部分形成互补，比如无限记忆π后面的小数点位数。因此人不应是弃用人工智能，而是善用。

芮勇认为，人类和人工智能应各自发挥各自的长处，去做到他们任何单独一方都无法做到的事。人类强在创造性和发散性的思维，计算机强在记忆力和计算能力，双方结合在一起会发挥巨大价值，这就是“增强智能“的概念。就像人类的左脑和右脑，人类的左脑主要负责记忆和逻辑推理，而右脑主要产生创造性和发散性思维。很多艺术家都是右脑发达，人们其实讲不出来艺术家作画和色彩选用的原因，但最终的成画却让人感觉很舒服。从人工智能到增强智能的演变，并不是说人工智能要完全取代人类，而是人工智能会成为人类得力的助手，使人类更聪明、更强大。

微软认知服务:开放的人工智能平台

前段时间，微软因为一个测年龄的APP（how-old.net）火了一把，背后主推的是微软认知服务。芮勇说，本来只是想向大家展示一下我们的服务能做什么事，打算上线一周就下线，结果发现太受欢迎，各个国家都在用。

How-Old.net

芮勇表示，推出微软认知服务是希望打造一个共赢的生态圈，毕竟很多东西是在微软平台上做的。“希望我们成为一个台阶，让别的企业站在我们的肩膀上，去做对他们来说更重要的事情，而不是重新去做我们已经经历二、三十年时间所做的科研工作。”微软的平台是全球最顶尖学者做了20多年得到的成果，对小企业来说开发成本非常高，今后开发者直接调用API就可以了。

但开发者通常还有一个顾虑，认为大公司开放的平台并不是他们做的最好的，肯定还有更好的。芮勇表示微软不存在这个问题，并希望加大和其他企业的合作。

微软经验：一切从基础科研开始

25年前，比尔·盖茨成立微软时，邀请了CMU(卡内基梅隆大学)的教授Rick Rashid担任微软研究院的首位负责人，Rick给研究院定下了三大使命：

1. Advance the state of the art in all fields incomputer science.
2. Rapidly transfer the technology into Microsoft products.
3. Insure Microsoft has a future.

“向前推进现有的计算机科学水准“是微软的首要目标，现在SIGGRAPH、CVPR、ACM Multimedia等顶级学术期刊会议上有不少来自微软研究院的文章。

芮勇强调，微软和很多企业的研究院有一点很大的不同，微软非常注重基础科研，投入非常大。今天耳熟能详的互联网、GPS，都是从基础科研里面发展起来的，但当时没有人想到这有什么商业价值。微软的经验是，如果想要把一件事情做好，一定要从基础科研开始。“我们研究院项目选题的方法，基本都是由下自上的，我几乎从来不告诉我的团队你必须要做什么样的项目。”给研究员充分的空间，很多的自由，让他们放手去做，但芮勇强调一点：在做之前要好好考虑做一个东西到底靠不靠谱？类似的东西为什么上次A做失败了，这次B就会成功？“但是我永远都不会限制他的发散性思维，学术上的自由，对基础科研的重视，才使得我们这么多年做出了一点点的成绩。”芮勇说。

想当年，博士毕业时，芮勇面试过很多景仰已久的大公司，但最终选择了微软。因为微软的面试环节给他留下了深刻的印象，面试官包括图灵奖的获奖者、激光打印机的发明者以及机器学习领域先驱等20多位计算机界的大牛，每一位都和他聊了一个小时，每轮面试都是一场战役。“当时就觉得，能和这么多大牛在一起共事，不给我工资也愿意啊！”芮勇笑着说。

“What 和 Why 比 How 更重要”

有感于芮勇的丰富经历和科研成就，《赛先生》记者请芮勇分享了他的科研选题心得。芮勇略微思考后答道：“What和Why永远比How更重要。How意味着你只要辛勤工作把东西做出来就ok，但怎么想到才是关键。“

芮勇建议，学者首先要紧跟科研潮流，参加一流的学术活动，就是多去参加相关领域最顶级的学术会议，不管是人工智能，还是机器学习，只要是行业里面最顶级的，就要去，去了就会有感觉，就知道今后这个领域的大方向往哪里走。然而，光有学术界的了解还不够，还要看清楚工业界发展的方向在哪里？因此可能要去结交一些初创公司的朋友，或者和天使投资人多交流。除了算法上的进步，基础科研上的创新，可能还有商业模式的创新，或者是几者的结合，多方了解后，就会看到趋势何在。比如，假如现在去硅谷，就会看到两大潮流，一个是以Uber、Airbnb为代表的共享经济，另一个就是AI（人工智能）＋HI（人类智能），人工智能和人加在一起才能做一些很大的事。最后，各个国家各个地区制定的发展规划也很重要，比如中国制造2025、德国的工业4.0和一些国家提出的大脑计划等等，如果能够将它们结合，就能找出一个新的潮流，此时你的选题就正确了。

结语

25年前，25个人在美国的西雅图成立了Microsoft Research（微软研究院），这承载着当时年轻人的热烈梦想；白驹过隙，在人工智能高速发展的今天，人类探知未来的梦想依然热烈，生命不息，好奇不止。人类和人工智能之争还存在着第三种可能，不是谁取代谁，而是彼此能够成就更好的彼此，共同迈进未来。

愿这一天早日到来，而我们也将尽情享受这到来前的每一天。

本文转载自微信公众号“赛先生”（iscientists），欢迎关注哦~

你也许还想看：

芮勇博士演讲丨人工智能60年，未来趋势怎么看？

欢迎来到隐形革命的时代

微软认知服务：人工智能的技术拼图

微软小冰住进微软研究院微信啦！快去和她聊聊天吧。

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！