微软资深副总裁洪小文：人工智能十年预测（演讲全文、61PPT）

2015-11-02 大数据文摘

新智元授权转载
微信公号：AI_era

2015年10月27日，微软公司宣布，微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士晋升为微软公司资深副总裁。

以下是洪小文在2015年中国计算机大会的现场报告。

洪小文：目前是担任微软亚太集团主席，他是2004年加盟微软亚洲研究院担任副院长，2007年晋升成为院长，2014年担任了微软亚太集团的主席，还负责与亚太地区包括中国在内的高校的各种合作。洪院长他应该是国际的语音处理方面的顶级专家，也是ICM的编委，在相关领域他发表了100多篇顶级论文，他也是微软杰出首席科学家，IEEE Fellow，长期以来对合肥和安徽给予了非常多的支持。我们知道人工智能从50年代诞生以来，包括计算机科学家在内的这个梦想让计算机变得更加智能，也就是说做人类能做的事情，包括语音识别，自然语言理解，人工智能在他的整个历程里面也是风风雨雨。发展到现在，随着互联网、大数据时代的到来，人工智能迎来了新的机遇。今天洪小文研究员会给我们带来关于人工智能相关的进展，包括他对今后5到10年人工智能的预测，大家欢迎。

洪小文演讲全文

【洪小文】谢谢陈老师，我认识刚才的刘老师有几十年时间了，今天跟他肯定没有提前沟通，刚才刘教授介绍人的智慧真是非常了不起。这里来介绍最近的AI人工智能。人工智能跟人的智能怎么来比较呢？我提出一些浅见。

我想最近AI人工智能可以说是无所不在，几乎每个礼拜都有新的报道，特别是说人工智能、机器学习多么了不起，甚至多么可怕，等会儿大家可以看到这些内容。当然，大家也知道，刚才陈老师讲了从1950年代开始研究人工智能，中间还经过人工智能的黑暗时期。今天，尤其是大数据跟计算能力的增加，让人工智能深入到生活中每个角落。我可以大胆地预测，现在跟未来的5到10年，几乎做的很多工作都跟智能，特别是人工智能有关。

今天就微软最近所做的一些研究以及产品的工作，跟大家探讨一下；事实上在业界很多我们的伙伴，以及其他公司也做类似的工作。

人工智能，我今天跟大家分成三块，一块是Agglomerative，人工智能仅仅是很窄的、所谓各种智能能力聚合。比如说，我自己做学生的时候，是做语音；语音跟图形处理，基本上被看成两个不同的领域。

事实上，怎么样把这个东西结合？我们人的智能就是各种感官聚集在一起，能够做一些了不起的工作。我们人的智能是学习，我用的字眼是adaptive，与时俱进，这是智能非常重要的地方。

最后，因为前两者能够让智能无所不在，并不是只有你需要它的时候才出来，甚至它可以主动的能够为你提供智能的东西。

我大概分成三方面，用一些PPT来介绍人工智能最近的发展。

首先，最近你们会看到很多的报道，小冰，微软的Chatbots。今天能不能够做一个机器人跟你聊天，让你分不出它到底是人还是机器人，这是在人工智能里面非常早就有这样的理论。

我们小冰，特别在中国推出的小冰，过去在短短的一年的时间，我常常这样来讲，只要让三分之一分不出是人还是机器就可以通过了。我们小冰头一开始，每次跟小冰聊天，大概5个来回，一问一答。到了今年年初，我们暑假推出了，大概可以到23。事实上大家知道小冰不是一个真的人，当你愿意跟它谈到23个来回——我们通常每天大概花两个Session，23个来回，远远已经超过它了。

我们在去年年底，邀请了一个记者来PK小冰，测试的时候会问一些很尖锐的问题。记者做了非常久，远远超过刚刚所谓23个来回。大家可以看非常长的PK，最后他也把这个东西放到网上。所以我想也是另外一个证明。

我们在今年暑假推出日文的小冰，我们叫做瑞娜。

大概有1%的日本人用，在美国也有一些报道。

这里刚才提到了这些数字。

今天利用这个机会跟大家介绍最近所做的一些工作。这里提三方面。

一个是Text Chat，我们开始知道真正的社交网站去挖掘Q-R，这是一个基础。更重要的是当我们把小冰做起来之后，真的跟小冰谈的时候，人真正的数据又产生新的Q-R，虽然占26%的chatindex，但是有超过一半以上的online traffic，这点是非常重要的东西，这也说明人工智能多么的重要。

我们在image方面也做了很多的工作。一般的用户在聊天的时候，很多时候会上传照片，我们把你的图片变成你聊天的东西，当然有也跟语音的结合。

我们最近在暑假的时候推出Image。微软最近推出牛津，我们做了faceanalysis，把名人可以辨别出来，大家所关心的明星，名人有趣的话题。同时我们把它的性别辨别出来，是男的女的。我们可以聊一些有趣的话题，我们可以用年纪决定很多聊天的内容。颜值，在中国很常谈的颜值，这里就是一个例子，根据我们所测的颜值，在社交网络上大家根据颜值会做一些很有趣的聊天内容，把这两个结合做很有趣的对谈。

在图里面辨甄出狗和猫，但不告诉你是哪一种狗，这不是很好玩儿。在网上有人辨甄了牛头梗，我们就把这样很有趣的对谈放进去，不只是告诉大家辨甄出什么狗。

同时也跟京东合作，辨甄出几千万的书，当辨甄出这是哪本书的时候，我们并不是去卖书，而是跟你谈书的内容，因为我们知道是哪一本书。

同时我们对衣服——我们知道在网络上大家对衣着谈得很多——对衣服做了几件事情，对于它的布料，格子的、条纹的、单色的做一个辨甄，同时我们也辨甄出这是上衣，这是牛仔裤，这是裙子。我们对它的风格，比如说学院风、上班族穿的，也辨甄出来。根据这个辨甄，有个人上传照片，这是年轻人穿的牛仔裤，上面有补丁，小冰辨甄出来说你要试试我的针线活，加上有趣的交谈。

我们很多人的照片在里面的时候，我刚才提到，可以辨甄出这两个人，知道是什么性别，年龄是不是相近。我们说你们两个是兄弟，并不是说你们是亲兄弟。当我们说颜值的时候，你还要靠你的智慧去吸引人，根据颜值做这方面的工作。

我们也做Image搜索，可以做下面几件事情。

第一个，duplicate。比如蒙娜丽莎，网上有很多蒙娜丽莎的图片，如果找出来这个跟那个几乎相近的，当然知道是蒙娜丽莎，更不要说在图片里面有很多的数据。同时有些人对蒙娜丽莎交谈的一些信息，也可以拿过来，这是用duplicate的方法。

第二个，Similar。它跟第一个不一样，我们到这里面找这个图片跟这个图片很类似，如果找一个很可爱的猫吐舌头，可以用他所用的社交网络上交谈的结果跟用户做交流。

第三个，我们对大概接近几万种图的recognition。我们辨甄出是一个食物，可以谈食物，如果辨甄出是地点，也可以谈关于地点的东西。

举一个例子，他本来跟小冰谈对话，结果谈了以后，当这个用户对于照相机有兴趣的时候，我们用对照相机所了解的内容跟用户来交谈。我们发现这样做了以后，用户因为这个原因而去买这个产品的机率大大的增加。这完全因为用户有需要，我们提供这个信息，而不是像广告一样硬去推销。所以我觉得可以对将来有很多的新的应用。

第二，学术搜索。

传统上的搜索，我需要找一篇文章，这里面更重要的是一篇文章是哪个作者写的，来自于哪个单位。把这些东西了解之后可以有一个很清晰的界面。

这里是一个例子，我们的大老板叫亨瑞，我们可以主动的建议你是不是找的人是这个人，特别中国人，很多时候同名同姓，在最快的情况之下用交互的方法来跟你做沟通，这样的话可以找到你所需要的东西。

非常有名的大师，Michael Jord。我们发现，MichaelJord不管做理论的东西还是做什么东西，我们可以主动推荐词语，你不用打完就可以搜索出来。

这是另外一个例子，这是michael Stonebraker。

我们在这里找文章，不只把最著名的文章找出来，同时我们把他相关的领域——事实上做了很多领域——还有现在所在的单位（找了出来）；每篇文章里面不仅把关键词找出来，比如CAD，这些东西点了以后可以在那个领域找其他的作者以及其他有名的文章。

我们希望大家在今天下午，或者明天有空的时候可以到我们的展台来试试看，这个月正式推出这个软件。比如说小娜，我们不仅在windows phone上，不久会出来（其它平台）。

接下来，我跟大家讲一个人工智慧的东西。刚才提到project Oxford，我们在这里跟大家介绍Image，这里是一个很好的例子。

我们在这里面提供很多的API，上传照片可以把这个内容找出来。在座的老师和同学、同事们，你们可以用这些东西做你们想要的东西，这是我们做它的目的，像这样的图片不仅是可以是高维的、关于Image语义上的信息可以找出来，同时也把这里面关于它的参数找出来。

我刚刚提到How-Old。 How-Old不是真正猜你的年龄，而是看你的外表年龄。当你笑的时候能够让你看起来年轻5岁。How-Old很多时候的用法，是看当你出门前怎么能够保持很精神的状态，很年轻的状态。我们发现How-Old达到这样的效果。

我相信有更多的应用，当API放出去以后大家可以来用。

技术部分，Image Rocognition，当我做研究生的时候，同学们做这个工作，比如辨甄一张椅子和桌子，我们可以辨甄上千个、上万个，那都是百万级的。微软在这方面几乎整个工作都有参与，不仅多Recognition。

比如说这样的图片，我们知道有狗，狗在哪个地方，我们知道有一个啤酒瓶，啤酒瓶在哪里。

通常情况下，你使用这个方法，你可以用不同的方式来做。

我们做了一个新的方法叫做SPP，也就是说用Pooling的方法，很多情况下不需要重复，大量的减少它的时间，也增加它的精度。

这里面人大概有5%的error，我们第一次能够逼近甚至于在很小的程度超越人的error，很多地方机器可以超过人。大部分人不了解其他的语言，这时候机器可以超越人。但是真正对于了解那个人，真正做同传的，知道了解这个领域的，今天我们翻译的水平跟那个比起来当然还是远远不如。但是看你怎么看人工智能跟人的比较，很多地方都有用途，这也是一样的道理。

这是SPP做出来的。

接下来，最近也有很多研究，对于IQ Test、高考或者美国的SAT。通过这个考试考的比人好（来看人工智能），IQ Test是非常好的方式，对于人来讲，虽然今天IQ Test不是广泛的被大家所使用，但是相当程度上大家觉得IQ Test不见得能够练习的，IQ Test成绩人一生下来在一个程度上被固定住了。

在IQ Test有一块，叫做Verbal。什么字对什么字的关系，相当于这个字对另外一个字的关系，你需要选一个出来。这几个字之内，哪个字在这里面意义跟其他比较奇怪。还有就是哪个字最接近，哪个字跟这个字相反。一般来讲，Human Performance年龄越高分数会越高；还有教育程度越高，通常这方面的也比较高。

如果大家在做DNN会发现，它刚刚好最适合的，我们对于任何一个字在一个多维的空间里面给它一个Vector，当这两个字相反的时候这个就会很长，不管你叫什么名字，在哪里，都可以来进行决定。你可以看得出来，我刚刚讲Verbal这个问题，事实上解得非常好，如果用AI解决这个问题，非常有希望可以做得比人好。即使有这样，语言里面人表现还是非常好的，我们要想办法来突破。

第一个，很多字有不同的Sense，我们做的ProbabilisticMixture Model在这个方面做了很大的提升。第二个，很多词有动词，有形容词，有名词的形态但是基本上来自于同一个字根，这个东西如果能把它合起来，有数据不够的情况下这个会找得不是很好，你可以弥补一下这方面的缺失。事实上人有很多问题，我们把这些信息用进去，比如说，交通工具，这些虽然看起来完全不一样的字，在这里面会做得更好。

我们做了这几个工作之后，这是初步的一个结果。我们的确可以做得非常好。我觉得当我们有更多数据的时候，选择题IQ Test，大胆地估计，AI会做得非常好。我们在这方面继续做这个研究，希望跟大家会有一个报告。

接下来是Ambient。人之所以称为人，这个是无所不在的。虽然不是每个专家，但是我们对每件事情，任何有兴趣的事情，我们可以提出意见。在微软上叫小娜，今天推出windows10以后，不仅仅在你的手机，在你的平板、你的PC上都可以用语音来做这些小冰的事情。

这里有一个问题你要解决的是，跟手机不一样，手机用的时候按一个键就可以来讲，当你在PC上按一个键非常不方便，希望随时可以讲。我们做这件事情就是所谓的Always On，每次需要讲一下你需要我做什么事情。即使是这样，还是会有一些问题，只要一百次里面有一次出错你就会觉得他非常不准确。

所以很重要的技术，我们现在把它放进去，我们叫说话人的辨识：通常一个PC只是归你用，特别是当你跟别人在开会，别人在那里讲这些问题，你的机器就开始动作了，这是非常不好的事情。所以在win10里面做了Speech ID，我们是4个Databases，最下面那个就是我们来用的Databases。

你可以跟这个Model来做匹配。我们用GMM来做，这里面能够大力的把它进行提升。

我们今天这个Results进步30%、40%，所以可以把它放到Windows里面。当你在做这个工作的时候，把它控制在1%，一百次里面出错一次是非常了不起的，即使人也会出问题，当然我们可以做到更好，我们也在继续做努力。

今天任何场所都有安全的问题，基本上都没有很多东西能用。录像监控调出来看，我们觉得它可以做很多事情。

比如说可以辨甄出人摔倒，前面几个是有人故意去摔倒，后面有几个是真的，所以我们要把那个人给遮住。而且你希望一摔倒马上可以有人扶起来。前面有几个人故意摔跤，摔得特别夸张。这个是真的，我们一些老年人摔跤，因为是真的，所以我们要把人抹掉，为了隐私权。

我希望大家很清楚的了解，这个东西非常有用。

比如说，我希望能够有一个连续的场景来做，我可以辨甄出每块区域是什么东西。

也包括假如你做无人驾驶，你可以看到障碍物，实时的能够了解这些问题。你知道这个非常有用，比如说滑雪的人，我们要关注这个人，而不是关注在其他的地方。

我觉得Perception，尤其和物联网、可穿戴式设备、手表、手环，你会把这个结合在一起可以做出更多更好的事情。

我跟大家已经介绍了最近AI的进展，到底AI可不可怕？AI跟人的智慧到底怎么比较？我想提出我的一些想法。

首先，在提AI之前，大家今天常见的这些问题，这三个地方的交集非常大。今天讲AI，基本上也是讲大数据。今天的AI都是用一些这个方法，用了非常多的数据。我在1980年做工作的时候就提出没有数据是不行的，这是非常重要的工作。

AI还有很多其他的东西，我个人觉得我们应该更多人做那些东西。但是这些数据的确变得非常有用，这里面我要呼吁AI，所谓的AI，所谓的大数据，大部分在做的就是Raw Pattern Recognition，比人做得好。

举一个例子，当你到一个鸡尾酒会，很多人多在讲话，事实上如果不了解那个人是谁，那个人讲的是什么语言，那个人讲的内容是非常难做的，你今天把一个人讲的话跟另外一个人混在一起，是很难辨别出来的。因为我们人了解了，这个人是谁，大概讲什么，在很嘈杂的环境下，没有听到讲话的人的声音，你听到这个的时候就可以捕捉到，很容易做切换和转换。今天AI在这方面所得到的进展是非常有限，甚至可以说过去四五十年方面都没有非常大的进展，这是人的智慧跟AI所不一样的东西。即使这样，一个新的语义叫做Data Sciences，今天所有公司大力投资大数据的应用。

回过头来说，什么是科研？把整个人类文明的进展，假设有一个实验来做，把它放出去让别人用或者来做这个实验搜集数据，我根据这个数据做分析，我来决定下一个产品。

这个跟伽利略观察这个天象，觉得地球可能不是所谓宇宙的中心；

比如说牛顿，来收集数据进行验证，最后提出他的理论，都是类似的。

是Closing Feedback Loop的一个时代。我们可以拿石刀切这些肉来吃，我们根据这些数据做下一个产品的过程。今天跟以前的不同点，因为计算机，我们有更多的东西可以去找到下一个实验。我常常讲，假如以前做一个实验要十年，以前我做一个实验的时间今天同样的时间可以做100个实验，所谓的AI，所谓的大数据最了不起的地方。

回过头来讲，刚才刘教授讲人的智慧。

我认为Intelligence，这个车有引擎可以跑得很快，有多少内存，这种功能毫无疑问（属于Intelligence），功能很多时候也是智能。

比如说智能，我认为它的定义是随着时间来改变的，我记得70年代第一次碰到遥控电视，那时候就叫智能电视，人不用过去电视就打开了，大家觉得那时候真的就是智能了，我记得小时候很羡慕人家会打算盘，都是计算神童，现在没有人认为会打算盘做很快的心算是智能，甚至于常常调侃研究院的同事许峰雄，我说你的贡献证明下围棋也不是那么智能，就有点像跟电脑比开根号，今天很多人不认为这是智能，二三十年前我们认为那个时候是非常大的智能。

下一步，我觉得叫做智力，智力就进入到你要有些Judgment、Creativity。尤其在座的是研究生，从大学到研究生很大的不同，很多题目已经没有标准答案了，已经不是选择题了。如果是选择题可以大胆地假设，包括IQ，我有足够量的数据，我相信机器可以做得比人好。但是人最了不起的地方，你让我选下面这些东西，我说都不是，又产生一个新的选项。这个在大数据来讲几乎是不可能做的，因为有一个新的选项来保证你没有数据。当没有数据的时候，还可以根据这个走下去，这个已经牵扯到至少今天的AI，今天的大数据没有办法处理的事情。

更不要说到智慧，我们说这个人很有智慧，特别是刘教授刚才所显现出来的，我们大师很多时候讲出来的这些东西已经不是单纯的标准答案了。大家可以看到这些文学家、艺术家，你所表达的东西，像刚刚刘教授所说的诗，正着念、倒着念，意境的不同，这样的东西无法打一个分，这样的东西今天电脑是没有完全往这个方面发展。

我们来看电脑到底是什么东西？Turing Machine是最了不起的，但是大家不要忘记了，你的Algorithms来自于谁。你想出来这个答案了，为什么想出这个答案，人都讲不出，好比你去问爱因斯坦为什么可以提出广义相对论、狭义相对论，我想他讲不出来。我们今天可以提出更多的理论。我常常自我反省，或许电脑就是一个最好的左脑袋，基本上就是我们人类有了逻辑的思维，让电脑来做，它又不会犯错，人有的时候会犯错。人最了不起的地方就是我们的右脑，我们大胆假设，想出很多东西，虽然这些东西的确到今天还搞不清楚。我们今天解答一个问题，一定跟以前的经验有关，但是讲不出具体的为什么这些东西让我们想出这个方法。今天为什么写一首诗、写一篇文章，不是选择题可以解决的，你很难验证这些东西。电脑跟人比较，电脑跟我们的右脑差的实在是太远了。

很多人，很多名人，都说AI是非常可怕的，将来会非常可怕，甚至于比核武器还要可怕。很多人说这个临界点到了以后，人脑可以上传，电脑超过人的智慧了。

我认为差得非常远。我认为这个远远大于选择题，选择题跟这个来比较，只要可以收集很多的数据——人看不到那么多的数据，这也是一个人的弱点——是机器的长处，但是人的智慧远远超过这个。还有一点我要讲的是，其实人太复杂了，电脑做的事情是Recognition，机器把这个做得很好。但是人跟机器最大的不同是，人太善变了，人的想法下一秒就改变了。

无人驾驶汽车很了不起？我说很可笑，无人驾驶汽车一点都不智能。每次开车的时候比较危险的是回头看。今天无人驾驶汽车，是前面放一大堆摄像头，旁边也放摄像头。人很多时候都收集不到这些信息。第二点，我（无人驾驶汽车）就跟车，永远不超车。人不是这样，人说不超车，下一秒就会超车，今天如果做无人驾驶汽车绝对没有这样做的，一定是我要安全、保守。

我举这个例子，说明人的问题跟机器解决的问题是很不一样的，更不要说到了意识这一层，今天没有任何机器甚至人以外的东西有意识。当然有一些研究说，金鱼、海豚可能有一点意识，但是都很粗浅，你可以说我们做小冰的经验，我可以做这个模型，小冰这个时候不回答你的问题，故意捣蛋、故意调侃你，人的意识是无所不在的，更不要说这个问题了。我常常讲电脑跟大数据的确很非常像，就像我们做一把刀，刀可以切菜，可以帮助我们做菜，刀也可以拿来伤害人，但是最后怪的人不是怪刀，是怪拿那把刀杀人的人，一样的道理。

今天如果有人把电脑当成武器，那要变成冤有头债有主，而不是怪电脑。比如无人驾驶，一看到人绝对要停下来，不要撞到那个人。我相信坐一辆车，看到一个人就去撞，这种事情我们人不会这样来做，那就是取决于良知。我要讲的人造所有的工具都希望它可控，永远不希望造出一个东西是不可控的，我觉得这是没有什么用途的，虽然很有趣，将来更多的是这种方式。唯一有可能是不可控，我们这些数学家告诉我们，电脑一定有Bug，所以我觉得科幻电影、科幻小说里面，有一个可能对人造成伤害，比较靠谱的就是Matrix，有些Bug对人造成伤害。Bug故意跟人作对我觉得可能性几乎接近于零，大可不必担心AI对人造成的困扰，还是担心人吧。我写了一篇文章在CCF里面刊登了，我提出了这些想法。

最后留一张图片跟大家做结尾。1950年当时电脑在这儿诞生，他就说AI很可怕。我们今天60几年过去了，没有任何一个理由让我们相信，这些AI是可以伤害人的。

AI以后可以改名成Augmented Intelligence，Human+Machine才等于Superman。

我今天就讲到这里，谢谢！

【限时干货下载】

2015/11/30前

2015年10月干货文件打包下载，请点击大数据文摘底部菜单：下载等--10月下载

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！

有些秘密注定只被少数人知道.....2024我们不再错过

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……