【科技评论】徐伟:视觉、语言以及人工智能展望
本文由新智元(公众号:AI_era)授权转载
主持人高亮:百度有一位科学家在几个指标下超过了谷歌,超过了微软,成为世界第一。但是这位科学平时比较低调,很少在公开场合发表演讲,这次在百度世界大会组委会的不断努力下,我们终于请他为我们这次的分论坛来做压轴的演讲嘉宾。下面有请百度研究院的杰出科学家徐伟博士,为大家介绍百度在人工智能方面的最新进展!
徐伟:谢谢主持人,我叫徐伟,我在百度深度学习实验室,最早开始在清华大学从事人工智能的研究,到现在已经20多年的时间,我感觉最激动的时间是从加入百度开始的。两年多的时间里面,我有幸和百度的同事一起参与了对于人工智能的快速推进,并且推动百度众多的产品,我们能够把最先进的人工智能技术应用到百度的6亿用户里面,这是我觉得非常激动人心的地方。
今天我介绍一下百度最近在人工智能方面的一些研究。包括计算机视觉、语音以及人工智能的应用。
人工智能是一个非常火热的概念,人工智能的讨论有一个非常坚实的技术进步作为基础。最近我们看到是在语音识别、图像识别和传统的人工智能路径上面,都取得了过去几十年不敢想象的进步。这体现了我们对于人工智能未来的期望。
是什么造成了这样巨大和快速的进步呢?一个很主要的研究是大数据和我们能够处理大数据的计算能力。像我们小孩要学习语言一样,我们教他一段时间,通过非常多的交流小孩能够把语言学好,这是因为内在的一些复杂结构需要大量的数据才能够体现出来,但是只有大数据也不够的,我们要教他说话,所以我们还需要一个非常强有力的学习方法。
深度学习有多层次的结构,能够把大数据里面的信息充分地挖掘出来。深度学习和大数据的结合,成为了这次人工智能潮浪的巨大推动力。
PADDLE,是百度的深度学习平台。我们在百度有非常多的产品都使用了深度学习技术。这些产品有着有非常多的数据类型,比如说离散的数据,图像的数据,文字的数据,以及数据分析的组合,这些我们可以很好的支持。针对于百度海量的数据资源和应用资源,PADDLE平台都能非常好的支持不同的训练。PADDLE支持灵活的配置,可以根据我们的应用的不同的需求,灵活方便地推出各种不同的深度学习模型的结构,比如说我们可以把这样的网络结合在一起,构造成一个模型,处理图像和文字结合的一些问题。
正是因为我们有了非常通用、非常灵活和非常强大的一个深度学习平台,深度学习在百度各种各样的产品里面,得到了非常广泛的应用。这是百度非常核心的两个产品,一个是百度的网页搜索,另外一个是百度的广告排序,这两个产品里面,使用了深度学习以后,它们在搜索的相关性和广告的点击率都有非常大的提升。
除了一些核心产品,还有一些你不太能想到的地方。应用深度学习后,数据中心的管理,病毒的检测,给我们带来了非常大的受益。还有其他的很多的产品都用上了我们的深度学习模型,因为时间有限,就不一一介绍了。
随着大数据在深度学习的使用,我们开始看到机器在一些问题上已经逐渐接近甚至超越了人类水平。比如说语音识别在搜索这样的短文本输入上面,已经做得很好了。在这个方面,人的单字错误率现在是8%,我们现在最好的是语音识别系统单字错误率6%,比人还好。另外一个方面是人脸识别,在这个应用上,现在机器人已经做到好很多了。LFW是国际通用人脸测试的评估,是用机器人判断,包括百度在内的一些公司和学校都已经做到了比人还好的识别效果,尤其百度的识别错误率只有0.23%,是世界上目前最好的结果。
刚才提到了,百度已经把这么好的人脸识别技术通过API Store开放给大家使用了。开发者使用这样的API可以非常方便的实现人脸注册和认证的功能,我们还提供了整套和配套的SDK,眨眼、张嘴、转头的动作都可以通过系统的人脸认证。
另外,我们也开发文字识别技术。在使用了深度学习以后,我们文字识别的应用范围和准确度都有了非常大的提高。比如说可以检测弯曲的文字,还有倾斜视角的文字,还有非常模糊的一些英文和中文,也可以正确地识别。还有比如说公式这样非常复杂结构的文字,也能够正确地处理。
在一些感知问题上,百度用深度学习已经取得非常大的进步。但是我们也知道,人区别于动物一个最大的特点是语言理解能力,接下来我给大家介绍一下百度使用深度学习在语言理解方面的一些具体的进展。
这是一个传统的语言理解系统示意图,一开始有语法分析,有词语标注的信息,还有句法分析,最后通过这样的句法树提供语音分析的结果,这样一个流程非常像我20多年前在学校学习英文的时候,非常重视语法的概念,实际上这种学习效果非常不理想,我觉得我个人的英文让这样的学习方法给害了。我们也知道小孩学习英文,实际上不需要语法这样的东西,可以做到非常流利、自然的使用理解母语。
说到这里,我要给大家介绍一下深度学习里面一个非常重要的思想,就是叫做端到端的学习,我们要抛弃人为的硬性分解,还有人为的特征构造,直接通过一个完整的模型,直接学习,这样的思想前面已经用到语音识别,图像识别的任务里面去,剖析了这些特征的东西,取得了几年前完全不可想象的巨大的成功。
在百度我们首先把这样的思想用到语言标注里面去,通过这样一个多层的利用网络,直接像小孩学习语言一样,不需要任何的语法分析,直接从文字的训练,直接到这样的关系,取得了非常好的结果。世界上首次不需要语法分析取得了比传统语法分析方法更好的结果。
端到端的学习另外一个非常成功的应用是机器翻译,通过这么一个整体的深度学习模型,直接学习从原语言到目标语言的对应关系。今年5月份的时候,百度又首次发布了统计和深度学习的翻译系统,对我们的信息翻译有了非常巨大的提升,如果大家感兴趣的话,可以到百度翻译了解一下。
人类语言是一个抽象的东西,是我们对所看到的、听到的和感受到的世界的描述。在百度我们提出把图像识别、语言理解还有语言生成这样传统人工智能上不同的分支,非常紧密地结合在一起,用统一的神经元网络,机器人直接学习和所看到的世界之间的关系。这样一个学习方法,非常像我们小孩学习一样,非常的自然。我们可以想像在不久的将来,我们都可以像教小孩那样教机器人做这样的事情。
这里是我们把图像和语言统一应用的例子,第一个例子是看图说话,机器人看到这样的图以后,可以读出这是一辆火车沿着森林里面的路行驶,第二个例子是冲浪板是什么颜色的,机器人通过对图和问题的理解,可以说出正确的答案,说是黄色的。我们这样的语言和图像的统一的模型,不仅可以理解单一的、静止的图像,也可以理解这样的动态的视频,看到这个视频以后,可以描述说是这是一只狗在桶里玩。
百度花了很大的努力来开发人工智能的技术,最终的目的就是为了让我们的生活变得更加美好。今天上午的时候,王劲为大家介绍了DuLight,这款产品就是出于这样的理想诞生的,DuLight是百度深度学习实验室最新开发的可穿戴智能设备,上面集成了图像识别、人脸识别、语音识别、语言理解的核心人工智能技术。我们目的是帮助盲人更好地生活。依托于百度、百度大脑,DuLight可以自动描述,帮助他了解周围环境。另外还有识别纸币面值的功能,解决实际生活问题。还有非常好的人脸识别技术,可以对摄像头的人脸做出识别,让我们更好地融入社会。
百度作为一个搜索引擎公司,最重要的使命是让我们的方便便捷地找到信息和服务。比较注重打扮的女生,经常会有这样的烦恼,看到一个漂亮的衣服,自己非常喜欢,不知道什么地方去买。百度的人工智能,让这件事情变得非常容易了,只需要把带有服装的照片上传到百度,百度大脑可以通过连接到电商资源里面,找到最相似的服装,并且直接可以到电商平台进行购买,非常地方便和快捷。
我们看到百度已经把人工智能用到产品的方方面面,我们可以有更好的产品,而更好的产品会给我们带来更多的用户和更大量的数据,更多的数据通过百度大脑强大的深度学习能力,可以给我们带来更强的智能,反过来又会让我们得到更好的产品。这是一个正循环,随着时间的推移,百度大脑的智能会越来越强,我们自然会问,我们现在离图像识别的人工智能还有多远?
人工智能的概念是在1955年的时候,由著名的四名计算机科学家提出来,他们要用十个人花两个月时间,对人工智能做出重大的提升,显然回过头来看,他们是大大低估了实现人工智能的难度。半个多世纪过去了,我们现在终于看到了一些人工智能的希望。我们是不是真的离人工智能很近了?其实还不是这样。
现在的人工智能还缺少非常重要的几个能力,第一个就是小数据的学习能力,今天大家可能听到非常多的大数据,我现在说小数据的学习能力,大家会觉得有一些奇怪,其实不是这样,我们现在的深度学习算法需要成千上万的图像才能认识一个物体,而小孩只需要教几次。我们需要做到,在非常大量的数据里学到非常好的表述,这样才能通过少量数据快速学习。现在我们在这方面相当缺乏。
另外一个方面,人工智能还缺少自主探索环境进行学习的能力,就像小孩一样,一生下来就有非常强的好奇心,不断地动、摸、爬、咬各种各样的东西,做破坏性的行为。小孩就是在这样的过程中不断感知和认识周围的世界,并且不断的成长。我们现在人工智能还缺乏这样的能力。
还有一个方面,现在的人工智能还缺乏通过和人的自然交流进行学习的能力。我们知道人可以在探索环境的过程当中不断的学习,也通过与人的交流学习非常多的知识。
我们现在还有一些非常困难的东西需要解决,百度的研究者正在积极探索这些问题。我们离真正的人工智能还有相当长的一段路,但是我觉得人工智能未来一定是非常光明的。因为我们已经看到百度和其他很多技术公司,已经把人工智能应用到生活的方方面面,我们正在经历一场人工智能的变革。我希望大家能够加入我们,一块去研究最新的、最先进的人工智能技术,或者使用我们的产品,为我们人工智能的成长提供点点滴滴的数据,我希望大家能够和我们一起创造人工智能的美好未来,谢谢大家。
更多关于“人工智能”的文章,请回复“智能”“AI”查阅
其他主题系列陆续整理中,敬请期待……