赛先生专访 | 微软亚洲研究院芮勇:从基础科研开启革命性突破
欢迎关注微信公众号:微软研究院
近日,IEEE(国际电气电子工程学会,全球最大的专业技术组织之一)计算机学会将本年度的Technical Achievement Awards(技术成就奖)颁发给了微软亚洲研究院常务副院长芮勇,理由是“其在多媒体分析与检索领域的开创性贡献(For pioneering contributions to multimedia analysis and retrieval)。”该奖设立于1985年,旨在表彰过去10-15年中做出的显著推动本领域技术进步的卓越研究和贡献。历史上获得此奖的学者包括IEEE计算机学会的首任主席EdwardJ. McCluskey博士,以太网络的发明人Robert M. Metcalfe博士等人。芮勇形容自己获奖是“Honored and humbled at the same time.”
芮勇是南京人,早年就读于东南大学自动控制系,而后保送至清华大学攻读硕士,并考入伊利诺伊大学香槟分校(UIUC)攻读博士。他自言是个幸运的人,90年代中在UIUC读博士,那时互联网刚刚兴起,连浏览器都还没有,更没有互联网搜索引擎。就是在这样的背景下,芮勇独自开始了图像搜索研究。那是一张白纸,给你无穷的想象空间。
30年前,图书馆就是个浩瀚的海洋。在找到你所需的信息之前,你务必要通过一个小抽屉,翻阅Index card(索引卡)来定位。当然这还需要技巧,因为很难一下子就找到想要的内容,简单的一个找资料的过程就会花费掉大量时间。
在现代人看来,这是难以忍受的低效,但在30年前,人们就是这么做的,要知道那时候还没有Microsoft和Google。好在当时的人们就已经在思考这方面的变革,“数字图书馆”项目应运而生,芮勇也身在其中。不过他想得更远,不仅仅是文本,多媒体、图片、视频、音频等这些是不是也可以搜索出来?再往前一步,不光是可以搜索,能不能把这个作为一个Query(查询),用一幅图片搜出更多的图片?这些思想火花一旦在脑海里出现,便难再熄灭。
当时,绝大多数人都是从机器视觉的Low level的Feature开始,对图片进行纹理、色彩以及物体形状的分析,然后寻找相似的图片。年轻的芮勇则独辟蹊径,走了另外一条道路。“我本硕学自动控制,这里面有个很有意思的理论叫控制(反馈控制是指将系统的输出信息与输入信息进行比较,并利用中间的偏差进行控制的过程);博士读计算机,期间又读了很多跟ACM SIGIR(美国计算机协会信息检索专业组)、搜索有关的反馈,我当时就在想,这些反馈的机理是否可以应用在多媒体搜索上面?因为多媒体更需要反馈,一段文字就是一段文字,这很容易找到;但是一张图片就是一些Pixels(像素),除了0就是1,人想搜的东西和计算机能看到的东西事实上相差很远。”芮勇说。
曾经有人尝试用图片搜索来匹配一位穿着黄色衣服的女士,得出的结果居然是一条跟她长得有点像的狗,这样的结果让人大失所望,但这确实是传统图片搜索的局限:仅能从纹理和色彩上进行分析,在语义层次上面还差很远,这就需要Relevance Feedback(相关反馈)来支持。得益于芮勇的独创性研究,多媒体检索往前大大迈进了一步,相关反馈理论后来引导了很多研究人员、学者沿着这条路继续向前走。即便到了今天,我们依然可以看到众多商业化多媒体的搜索引擎,或多或少都用到相关反馈。
“假如给您10个视频,编号按照1、2、3…自然数列排序,其中有一个视频有个小孩在笑的片段,怎么能够迅速找到?”
以往我们想要在视频中完成搜索,基本是两个办法:快进和快退,但芮勇却给了我一个新的答案:创建视频目录(Constructing table-of-content for videos),并由视频生成文字(Video to text)。
把一个没有结构化的视频分成不同的Short(节),节再分出一些Keyframe(关键帧),不同的节组成一个场景,叫Scene(章)。这就好比一本书,前几页要有个Table-of-content(目录)才方便检索。芮勇的做法就是创建视频目录,让一个无结构化的流媒体自动生成章和节,然后知道每一个节代表性的关键帧是什么样子,这样很容易就找到你想要的部分。在此基础上,让视频生成文字,即从一段段的视频生成人类可以看懂的一句话。这有些类似于图片搜索领域的图片生成文字(Image totext)。
从计算机视觉的角度来说,图片分析最早是抓出一些图片的点、线、面等,然后再看能不能给图片打上Tag(标签)?如果图片里面有只小猫、小狗或者植物,要看可否读取出来?这就到了识别阶段。如果把图片給计算机看,它能够根据图片的真实内容生成一句话,比如:两匹棕色的马在绿色的草地上边走边吃,这就说明它看懂了,理解了这不是一匹马,而是两匹马,不是红色的马,是棕色的马,还一边走一边吃。今天的技术已经可以在某些领域里实现这个目的,但更难的是给计算机一段短视频,让它来告诉人视频里在发生什么,让计算机生成一句人类能够懂的具备画面动感的话。而这个更难的任务,已经由芮勇的团队实现了,在芮勇展示的一段短视频中,计算机准确描述出了这个场景:一个运动员骑在一个飞奔的摩托上进行比赛。
《赛先生》了解到,该项成果刚刚被CVPR(国际计算机视觉与模式识别会议)所收录,芮勇将于今年7月赴大会作报告。
芮勇
早在1990年前后,芮勇就尝试使用人工神经网络(ANN)去预测某几个省下一周的用电量是多少,这样就可以最优化这几个省的水电厂、火电厂该发多少电,保证在最省火电的情况控制最大用水。
芮勇最初写的ANN(人工神经网络)就是一层隐含层、一层输入层和一层输出层,当年一层隐含层的ANN和现在的DNN(深层神经网络)有很大区别。后来芮勇没有继续写第二层隐含层,在他看来当时的条件还不支持他这么做:第一,训练样本不够大,因为有了第二个隐含层的时候,可调参数太多了,可能会过度拟合;第二,这个算法本身也有很多挑战,基于误差反向传播算法(Back Propagation)的ANN,每一层从错误求偏导,对每一个参数求偏导,当求第二次偏导时,要么是0要么就是1,算法所限使得这个网络不稳定;第三,计算能力也很弱,当年就是在一台386上面跑。数据量小、算法本身的缺陷和计算能力弱等原因,制约了ANN的发展。
90年代末期,SVM(支持向量机)开始取代ANN;到2009年的时候,ANN的发展有了新的名字DNN,隐含层变得很多很多,中间的激活函数用得也不一样,求偏导不是那么困难了。现在很多人谈论CNN(卷积神经网络),严格来说,CNN也属于DNN的一种,对二维图片的处理非常有用。但深度学习也包括一些非ANN做出来的东西,如果层数很深的话,也可以称之为DNN。我们今天用到的绝大多数的深度学习,同义于多层隐含层的ANN。
过去的八九年间,几乎在语音识别、语音合成、OCR(光学字符识别)、计算机视觉等领域比赛里面,获得第一名的基本都是用深度学习来做的。去年底,微软亚洲研究院的孙剑等人开发出了152层的深层神经网络,这是在已公开的资料中最多的层数。但苦恼的是,深度学习经常被诟病为黑盒子。你做好了,你也不知道为什么做好了;另外一个Task,你把它放进去,结果又不好了,你也不知道为什么结果就不好了。在芮勇看来,深度学习在理论方面的分析还欠缺火候,今天我们把深度学习当做一个工具来用,在各个领域都感觉不错,但为什么好?为什么是23层而不是25层?为什么每一层是1024而不是2048?深度学习的理论架构是回答不出来的。今天我们用到的目标函数还是跟50年前一样,但还有很多其他目标函数为什么没有去选用?怎么去做?这一系列的问题,都等着深度学习的研究者们来回答。
当问到人工智能的发展是不是也会遇到瓶颈?芮勇认为,很多事情的发展都是螺旋式上升的,就像ANN一样,在80年代末90年代初专家系统没落时,ANN兴起;到90年代末ANN走不动了,SVM(支持向量机)出来了;随着数据量更大,人们想是否可以在抽取Feature(特征)的同时,训练一个分类,于是更深度的DNN兴起,这就是一个循环上升的结构。“今后一定会遇到一个瓶颈,但是会因为某些别的条件发生改变,它又会有一次飞跃。“芮勇说。
芮勇笑着说,如果你和真正在第一线做人工智能研究的学者交流,他们一点都不担心。大众的焦虑在于他们混淆了弱人工智能和强人工智能两个概念。
在弱人工智能领域,慢慢都会产生一些突破,比如说围棋、国际象棋等,只要在这些规则清晰、容易量化、可计算的领域,机器慢慢都会做,而且做得比人要好。但有没有一个机器能够在非监督学习的情况下,自己写出一段程序来战胜一个国际象棋大师?这才是最难的地方(强人工智能)。
可以肯定的是,任何有规则的、而且规则能够量化的事情,今后机器都会做,而且比人类做的都要好。如果一定要预测强人工智能到来时间的话,芮勇用“Never say never.”给出了回答。在他看来,这一天还非常遥远,人类不必过于担忧太远的事情。强人工智能在走近,人类的水平也在进步。
在芮勇看来,人工智能如果要做好的话,必须要有Common sense(常识)。对人类而言,几乎都不会刻意去想常识究竟是什么,但潜意识里面我们一直在用常识。
举例来说,小学时很多人都解过“鸡兔同笼”的数学题,总共有多少只鸡?多少只兔?总共有多少只头?多少只脚?人算很快就有结果。同样的问题让计算机来解,在非“人工+智能”(指的是机器和人一同协助)的情况下,计算机想要做好是非常困难的,因为计算机的常识和人类的常识相差甚远。在“鸡兔同笼”这道题里,老师是假设学生有常识的:一只鸡有一个头、两条腿,但机器无法理解。哪怕我们先把这部分的hardcode(硬编码)写进去,但明天老师变了个题目:鸭狗同笼,人类来解依然没有问题,但计算机就崩溃了:什么是鸭?什么是狗?我们继续改题,变成了“鸡兔同屋”,机器又不会了:屋又是什么?人工智能要慢慢往人类智能的方向发展,首先要解决的一个重要难题就是今天很多人都忽视的“常识“问题。这对人来说简单至极,但对机器来讲是难于登天。
有人欢迎人工智能的到来,也有人担忧人类的未来,尤其是AlphaGo在围棋上击败了李世石九段,人工智能究竟会发展成什么样子?
在芮勇看来,由于那些规则清晰的工作任务都会由计算机做得越来越好,因此关心人类未来,真正应该问的问题是:哪些行业里面的哪些工作会被人工智能所取代?以速记员为例,很简单的一些常规速记工作会被取代;但是一些高端的、当事人说话有口音的、需要专业背景知识的速记工作则很难被取代。因为计算机没到这个水平。总而言之:任何一个行业中的低端的、可重复性的、不具备创造性的工种会被取代。
计算机和人是各有优劣势的,计算机只是一个工具,如果我们回到过去,早期人类种地的时候用石头刨坑,后来改用青铜器,工业革命后出现了拖拉机,拖拉机的力气比人大很多,和人类是互补关系。人工智能也一样,会在一些人类不太强的部分形成互补,比如无限记忆π后面的小数点位数。因此人不应是弃用人工智能,而是善用。
芮勇认为,人类和人工智能应各自发挥各自的长处,去做到他们任何单独一方都无法做到的事。人类强在创造性和发散性的思维,计算机强在记忆力和计算能力,双方结合在一起会发挥巨大价值,这就是“增强智能“的概念。就像人类的左脑和右脑,人类的左脑主要负责记忆和逻辑推理,而右脑主要产生创造性和发散性思维。很多艺术家都是右脑发达,人们其实讲不出来艺术家作画和色彩选用的原因,但最终的成画却让人感觉很舒服。从人工智能到增强智能的演变,并不是说人工智能要完全取代人类,而是人工智能会成为人类得力的助手,使人类更聪明、更强大。
前段时间,微软因为一个测年龄的APP(how-old.net)火了一把,背后主推的是微软认知服务。芮勇说,本来只是想向大家展示一下我们的服务能做什么事,打算上线一周就下线,结果发现太受欢迎,各个国家都在用。
芮勇表示,推出微软认知服务是希望打造一个共赢的生态圈,毕竟很多东西是在微软平台上做的。“希望我们成为一个台阶,让别的企业站在我们的肩膀上,去做对他们来说更重要的事情,而不是重新去做我们已经经历二、三十年时间所做的科研工作。”微软的平台是全球最顶尖学者做了20多年得到的成果,对小企业来说开发成本非常高,今后开发者直接调用API就可以了。
但开发者通常还有一个顾虑,认为大公司开放的平台并不是他们做的最好的,肯定还有更好的。芮勇表示微软不存在这个问题,并希望加大和其他企业的合作。
25年前,比尔·盖茨成立微软时,邀请了CMU(卡内基梅隆大学)的教授Rick Rashid担任微软研究院的首位负责人,Rick给研究院定下了三大使命:
1. Advance the state of the art in all fields incomputer science.
2. Rapidly transfer the technology into Microsoft products.
3. Insure Microsoft has a future.
“向前推进现有的计算机科学水准“是微软的首要目标,现在SIGGRAPH、CVPR、ACM Multimedia等顶级学术期刊会议上有不少来自微软研究院的文章。
芮勇强调,微软和很多企业的研究院有一点很大的不同,微软非常注重基础科研,投入非常大。今天耳熟能详的互联网、GPS,都是从基础科研里面发展起来的,但当时没有人想到这有什么商业价值。微软的经验是,如果想要把一件事情做好,一定要从基础科研开始。“我们研究院项目选题的方法,基本都是由下自上的,我几乎从来不告诉我的团队你必须要做什么样的项目。”给研究员充分的空间,很多的自由,让他们放手去做,但芮勇强调一点:在做之前要好好考虑做一个东西到底靠不靠谱?类似的东西为什么上次A做失败了,这次B就会成功?“但是我永远都不会限制他的发散性思维,学术上的自由,对基础科研的重视,才使得我们这么多年做出了一点点的成绩。”芮勇说。
想当年,博士毕业时,芮勇面试过很多景仰已久的大公司,但最终选择了微软。因为微软的面试环节给他留下了深刻的印象,面试官包括图灵奖的获奖者、激光打印机的发明者以及机器学习领域先驱等20多位计算机界的大牛,每一位都和他聊了一个小时,每轮面试都是一场战役。“当时就觉得,能和这么多大牛在一起共事,不给我工资也愿意啊!”芮勇笑着说。
有感于芮勇的丰富经历和科研成就,《赛先生》记者请芮勇分享了他的科研选题心得。芮勇略微思考后答道:“What和Why永远比How更重要。How意味着你只要辛勤工作把东西做出来就ok,但怎么想到才是关键。“
芮勇建议,学者首先要紧跟科研潮流,参加一流的学术活动,就是多去参加相关领域最顶级的学术会议,不管是人工智能,还是机器学习,只要是行业里面最顶级的,就要去,去了就会有感觉,就知道今后这个领域的大方向往哪里走。然而,光有学术界的了解还不够,还要看清楚工业界发展的方向在哪里?因此可能要去结交一些初创公司的朋友,或者和天使投资人多交流。除了算法上的进步,基础科研上的创新,可能还有商业模式的创新,或者是几者的结合,多方了解后,就会看到趋势何在。比如,假如现在去硅谷,就会看到两大潮流,一个是以Uber、Airbnb为代表的共享经济,另一个就是AI(人工智能)+HI(人类智能),人工智能和人加在一起才能做一些很大的事。最后,各个国家各个地区制定的发展规划也很重要,比如中国制造2025、德国的工业4.0和一些国家提出的大脑计划等等,如果能够将它们结合,就能找出一个新的潮流,此时你的选题就正确了。
25年前,25个人在美国的西雅图成立了Microsoft Research(微软研究院),这承载着当时年轻人的热烈梦想;白驹过隙,在人工智能高速发展的今天,人类探知未来的梦想依然热烈,生命不息,好奇不止。人类和人工智能之争还存在着第三种可能,不是谁取代谁,而是彼此能够成就更好的彼此,共同迈进未来。
愿这一天早日到来,而我们也将尽情享受这到来前的每一天。
本文转载自微信公众号“赛先生”(iscientists),欢迎关注哦~
你也许还想看: