查看原文
其他

李飞飞和ImageNet的洪荒之力

2017-12-02 图灵人工智能

李飞飞,斯坦福大学教授,斯坦福大学人工智能实验室的主任


本文选自资深传媒人杨澜对李飞飞的采访。

斯坦福大学人工智能实验室


    从地球上第一个长出眼睛的生物——三叶虫算起,到今天,人类视觉的进化经历了5亿4000万年的漫长旅程。人类能获得今天的视觉能力,是大自然长期训练的结果。大自然还将人们的大脑训练成最聪明的经济学家,知道如何高效地利用空间和能源。人们大脑皮层的三分之一是视觉层,这意味着,视觉是一个对生存来讲最重要的感知系统,同时,它也是最难的。什么是视觉?难道就是眼睛吗?眼睛仅仅是窗口,主机其实是我们的大脑。视觉是人类获取信息最重要的渠道,人们的眼睛好比相机镜头,用来采集图像,而负责识别和理解的则是我们的大脑。

    如今,人们已经能制造出高精度的计算机眼睛,科学家需要找到方法来建造计算机大脑。该如何让机器理解庞大的视觉信息,学会看懂这个世界?对机器来说这是一件很难的事情。


    李飞飞2005年进入加州理工学院攻读博士,后来领导斯坦福大学的视觉实验室,这位在科学圈里屈指可数的女科学家,和她的导师、合作者,还有学生,一直致力于教机器如何去“看”,她的研究方向为“计算机视觉与机器学习”,这是人工智能最重要的分支之一。李飞飞希望能够教会计算机像人一样去“看见”事物,可以识别出物体,可以辨别你是谁,可以推断物体的立体形状,还可以理解事物之间的关联,人的情绪、动作及意图。

    理想丰满,现实骨感。李飞飞和她的同事们可以算作第一代计算机视觉领域中的学者,他们最开始用数学的语言告诉计算机:猫有着圆脸、胖身子、两只尖尖的耳朵,还有一条尾巴,这样的算法乍一看没有问题,但如果机器遇到一只蜷缩着身体的猫呢?或者一只傻傻的猫呢?机器就不一定能认出猫来了。李飞飞意识到,曾经普遍采用的统计和概率方法,数据集太小,存在瓶颈。

    但是,同样的事情如果发生在一个两三岁的小孩子身上,不管这只猫站着、躺着、趴着、聪明着、犯傻着,他都能够认出来。看上去,机器的智力连一个两三岁的孩子都不如。究其原因:别看一个孩子两岁的时候就能识别物体,但是,从出生到两岁,他已经看过成千上万乃至上亿张图片,因为他的眼睛随时都在观察自然环境。人们的眼球转动一次的平均时间大约是200毫秒,如果把每一次转动比作按下一次相机快门的话,一个两三岁大的孩子已经看过了上亿张现实世界的图片——这是一个海量的训练数据。

    所以,与其孤立地关注于算法的优化、再优化,倒不如把关注点转移到给算法提供数据上来。李飞飞从婴儿的身上找到了灵感,她决定收集大量数据,这个数据集必须比之前有过的任何数据库都要丰富,甚至丰富数千倍。这意味着李飞飞和她的团队要开始一段艰难的研究。

    通过与普林斯顿大学李凯教授合作,李飞飞在2007年发起了ImageNet计划。她告诉自己的博士生邓嘉:“你要是自己不吃不喝不睡,每天都坐在那里标注图片,大概20年后可以毕业吧!”这个同样来自中国的年轻学者并没有被即将开始的漫长的苦行僧般的研究吓到。他们从互联网上下载了上亿幅图片。在三年的时间里,通过亚马逊的平台,来自167个国家的五万个工作者,参与了在线图片的筛选、排序、标注工作。这五万个工作者,他们不知道,虽然他们这么多人加在一起投入的精力,只是去捕捉一个小婴儿在他早期发育阶段可能获取的很小一部分图像,但是这项工作却是人工智能领域里里程碑的项目。

        2009ImageNet诞生了,1500万张标注的图片,设计22000个类别。这是一个规模空前的巨无霸似的数据库。苦行僧般的经历换来了前所未有的兴奋,李飞飞和她的团队公开了整个数据库,免费提供给全世界的研究团体,他们希望整个研究界能够从中获益。有了这个用来培育计算机大脑的数据库,科研者们又可以回到“算法”本身了。

2010年,李飞飞推出计算机自动识别图像的ImageNet国际挑战赛,来自顶级高校和研究机构的参赛者们,为了降低百分之零点几的错误率,展开了激烈的竞争。

        2012年的ImageNet国际挑战赛上,杰弗里辛顿(Geoffrey  Hinton)团队送来的参赛模型大获全胜,让扬乐昆(Yann  LeCun)提出的卷积神经网络(ConvolutionalNeural NetworkCNN)大放异彩。杰弗里辛顿团队很快写了一篇论文,名为《分类标识法》(ImageNet  Classification),将“深度学习(Deep  Learning)”理论做了详细的阐述。卷积神经网络是深度学习的一种,在随后的日子里,它以难以想象的方式蓬勃发展,在图像识别领域,产生了各种激动人心的新成果。

    先教会计算机识别出物体,然后再教它如何识别简单背景,接着是识别复杂的背景,再下一步可能背景比较混乱。但如果一个画面里有一只猫追一只狗,或者在追另外一只猫,它们之间的关系是怎样?狗在害怕吗?猫是什么表情?在这方面的研究还处于起步阶段。

    人类儿童在认知世界时不仅仅是通过一张张定格的图片,而是在实践中不断地认知它的变化,并通过自己的感官,去看、去嗅、去摸、去听,从而完善对它的认知。而人工智能目前的视觉识别方式,与之相比,还相当初级。

    不仅要教会计算机会“看”,还要教它能生成句子。这样一来,计算机就需要从图片和人类创造的自然语句中同时进行学习,就像我们的大脑,能把视觉现象和语言融合在一起。为此,一个可以把一部分视觉信息(如视觉片段)与语句中的文字、短语联系起来的“计算机视觉模型”在李飞飞和她的伙伴们手中诞生。计算机在看到图片的第一时间,就有能力生成类似人类语言的句子,但是计算机还有很多要学的知识,它还会犯很多错误,它依然不能像人类一样,欣赏大自然的美景,并给予丰富的表达——虽然已经取得了难以置信的成就。

科研就是一个翻山越岭的过程,你去征服一座高山,再去征服下一座峻岭。同时还是两个孩子母亲的李飞飞,对待机器就像培养她的另一个孩子。看着自己的孩子,有一天突然会爬了,会走了,会叫人了,再多的汗水和等待都会换来惊喜。只是,这个孩子的母亲,她还有一个身份——科学家。看着一步一步学会更多的机器,李飞飞更多的是一种“我终于做出来了,还好我没有放弃”的情感,站在科学家的角度,她一直向着一个明确的方向砥砺前行。

    李飞飞经常穿着一件T恤,上面印着“AI改变世界,谁来改变AI”的英文。她说,特别想让笛卡儿生活在今天,笛卡儿当年说“我思故我在”,她很想知道笛卡儿会怎么看待现在的机器能够思考了。人文主义的AI,也就是Humanistic  AI,这是李飞飞一个明确的思考角度。

    李飞飞从小就很喜欢数学和科学,本科选择了普林斯顿大学物理系,当时怀着成为爱因斯旦的梦想。在接触物理的过程中,她发现,其实在20世纪初期,最伟大的物理学家开始思考的问题已经从物理转向了生物。物理学家们在思考“人从哪里来”“人的智能从哪里来”这样回归到人本身的问题,她的偶像爱因斯坦也是如此,所以她也关注这些问题。有意思的是,人们印象中,爱读小说的多是女孩子,小说中的虚构世界会给爱做梦的女孩子无限遐想,指导李飞飞这位女性科学家走上科研探索之路的确实实实在在存在于现实中的科学大咖。李飞飞后来开始关注神经生物学,大学时有几份实习都与神经生物学有关,于是,博士期间她选择了认知神经生物学方向。

    就这样,李飞飞走上了研究人工智能的道路,成了科技领域屈指可数并且硕果累累的女性。在斯坦福大学人工智能实验室,她是唯一的女性教授。整个人工智能研究领域中,女性可能不会超过10%。李飞飞希望有更多的女性可以加入到科技的大家庭,为此,除了科研本身,李飞飞做了一件在她看起来整个斯坦福大学人工智能实验室都非常骄傲的事情,他们创建了世界上唯一一个人工智能夏令营,也是唯一一个只面对女学生的人工智能夏令营。

    李飞飞将参加夏令营学生的年龄段选择在高中,这个年龄的孩子开始思考一些大的问题:他们是谁?他们的兴趣在哪里?大学生应该学什么?他们想从事什么样的工作?从这个年龄段的孩子身上,李飞飞看到了机会,她邀请这个年龄段的女孩,让她们接触一些人工智能领域最领先、最顶尖的科技。

    在加入斯坦福大学之前,李飞飞曾在普林斯顿大学任教过,她发现,这些大学里的孩子不管是男孩女孩,都非常全面,文笔好,数学也好,他们可以做很多事情。男孩在选择人生方向的时候,会很想改变世界,很想对人类有所贡献,硅谷、极客文化、是男孩们的心之所向。很多女孩却说:“我不Care极客文化,但是我会Care‘无人车改变了老龄化’这个人类社会间问题。”或者会说:“我Care精准医疗是否可以治愈癌症。”

    这是一个有趣的发现,李飞飞说:“你如果让一个男孩学人工智能,你只要告诉他说这个事很酷就可以了;但是如果你让一个女孩来的话,你就要告诉她,人工智能能够让你的祖父母生活得更有尊严。”在李飞飞看来,有更多的领域进入到科技研究领域,不仅是性别平等,同时也是让女性把对人文的关怀带入到科技的发展中,给科技以灵魂,给科技以一颗有温度的心。基于此,这个夏令营特别重视的不仅是让这些女孩子享受科技,更重要的是能看到科技最终是有人文关怀的。李飞飞举了一个例子:她的姥姥95岁了,离她很远,不能尽孝是她的一大遗憾。因为姥姥,李飞飞关注人工智能在陪护、医疗领域的应用,她希望姥姥可以用上自己的科研成果。

    如果把人工智能领域的科学家比作一个大的理科班的话,李飞飞是这个班上屈指可数的女生,也是这个班上让男同学们佩服得翘起大拇指的“女神”。她够聪明,搭建出巨无霸的数据库ImageNet,让卷积神经网络重获新生,这足以让世界感慨科学世界中的“她力量”;她够励志,通过搜索引擎搜索“李飞飞”三个字,就能出现“中国女孩美国求学,开洗衣店挣学费”的故事。不仅如此,她可以在一次国家经费都申请不下来的情况下,做好“大不了开洗衣店补贴费用”也要把ImageNet做下去的打算,终于“守得云开见月明”;她可以在好心同事劝告她“飞飞,你别做这个工作了,不然连评终身教授可能都是个问题”的时候,不为所动,自己选择的路跪也要跪到终点;她可以在看到卷积神经网络因为ImageNet的帮助获得再次运用时,即使当时刚生下老大没有几个月,却专门连夜买机票飞到意大利与相关专家进行头脑风暴。

记得李飞飞曾经站在TED的讲台上,深情地说到:“在我探索视觉智能的道路上,我不断地想到Leo(她的儿子)和他未来生活的那个世界。我所追求的是,赋予计算机视觉以智能,并未Leo和这世界上,创造更美好的未来。”

李飞飞一家
    李飞飞认为,我们的每一项科技都代表着我们的价值观,我希望未来,它可以代表全人类的价值观。谁来承载起全人类的价值观呢?它包括男性、包括女性,包括不同的种族,包括不同行业的人们,这个非常非常重要。我经常跟我的同事和学生提一件很好玩的事,你到谷歌的图片搜索里面去搜索一个非常简单的词——Grandmother或者Grandma,你会发现搜索结果第一页全是“白人老奶奶”。那么,如果是外星人到我们地球,想向我们地球上的人学习,他问,什么是Grandma?结果一搜,看到的东西是西方的老奶奶,可是“奶奶”绝非只有西方人。所以,科技会不小心就只代表一部分人的价值观,只代表一部分人关注的事情。所以我一直强调,不管是女性还是来自不同背景的人,我们一定要参与,参与人工智能、参与科技。如果你在乎,如果你相信科技能改变人类的话,那你就一定要参与进来。


往期精彩文章(单击就可查看):

南京大学教授:周志华——深度森林:探索深度神经网络以外的方法


斯坦福大学人工智能实验室主任:李飞飞——ImageNet之后,计算机视觉研究最新进展


清华大学:刘洋——基于深度学习的机器翻译


国防科技大学教授:殷建平——计算机科学理论的过去、现在与未来


清华大学软件学院院长——刘云浩:与高中生对话人工智能


【原创】|日本理化学研究所先进智能研究中心主任——Masashi Sugiyama:弱监督机器学习研究新进展


「人物特写」清华大学邓志东:“特征提取+推理”的小数据学习才是AI崛起的关键


明略讲堂 | 清华马少平教授详解“人工智能能做什么?”


【原创】|西安电子科大——焦李成:人工智能时代后深度学习的挑战与思考


Michael I. Jordan——计算思维、推断思维与数据科学


【原创】王飞跃:生成式对抗网络的机会与挑战


【原创】|微软亚洲研究院——刘铁岩:深度学习前沿


清华大学教授:孙富春——认知时代人工智能与机器人


清华大学:朱军博士——When Bayes meets Big Data


加州大学伯克利分校:马毅——低维结构和高维深模型(视觉)数据


加州大学伯克利分校计算机系教授:Dawn SONG——AI如何建立一个更强的防御系统


清华大学:刘知远——知识表示学习及其应用

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存