查看原文
其他

谷歌云首席(AI)科学家李飞飞:人工智能的过去与未来

2017-01-15 龙为公司 龙为科技


李飞飞(Fei-Fei Li),女,华裔人工智能专家。她出生于,长在四川,16岁随父母移居美国新泽西州,就读于Parsippany高中。1999年毕业于后,她赴研究一年藏药。2005年获得电子工程博士学位。2009年她加入任助理教授,并于2012年担任副教授(终生教授),和斯坦福人工智能实验室与视觉实验室主任。此前分别就职于(2007-2009)、香槟分校(2005-2006)。李飞飞教授为TED 2015大会演讲嘉宾,曾获2014年IBM学者奖、2011年美国斯隆学者奖、2012年雅虎实验室学者奖、2009年NSF杰出青年奖、2006年微软学者新星奖以及谷歌研究奖。2015年12月1日,入选2015年“”。2016年成为“2016年度杰出移民”之一。2016年11月15日,加入谷歌公司任人工智能(AI)研究员。


https://v.qq.com/txp/iframe/player.html?vid=w0366iubkw0&width=500&height=375&auto=0
谷歌云首席科学家李飞飞:人工智能的过去与未来


斯坦福大学计算机系终身教授、人工智能实验室主任,谷歌云首席科学家李飞飞今日参加在2017年极客公园创新大会,并发表主题演讲。李飞飞在演讲中回顾了人工智能在过去60年间经历了的发展阶段,并展望了人工智能的未来。


李飞飞指出,人类的历史有上千年,但人工智能只有大概 60 年的历史。“60 年代、70 年代、80 年代的人工智能, 没有我们预期的做得那么好,问题出在它的演进的过程。到了 80 年代开始,一个重要的子领域在人工智能领域开始发展,就是机器学习。”


此后又出现了“神经网络”这个算法,并且在2012年这个大致的历史时期,深度学习和神经网络发生了一次井喷式的成长和革命,所以很多人说,Deep Learning(深度学习) 的三个 Ingredients(元素) : Algorithms(算法)Data(数据)和 Computation(运算)。它给我们带来了一次革命性的飞跃。


Language(语言)和 Vision(视觉),是最近人工智能界非常关注的点。未来人工智能将发展到什么程度呢?李飞飞以一幅图片举例,现在计算机视觉可以告诉一张图里有一些人,这幅图的三维结构是什么,或者给我们一句话或者给我们几句话、N 句话。未来,我们将可以看到这里面的人是谁,他们的关系是什么,他们的情绪是什么,这幅图的幽默点在哪里。它可以给我们带来很多很多信息,这是计算机现在远远没有达到的。(完)

以下是李飞飞的现场演讲内容:


我今天带来的,是比较学术的演讲。我想跟大家分享一下人工智能,站在我自己的实验室的角度,过去的发展的路径,和我们最近在做的一些工作。人工智能到今天,已经带来了一场革命的开始,不管是天上、地下、云上、手机上,我们都会看到它给我们带来的一些兴奋的可能性。


其实,智能这个问题,从人类文明的最初期,有了人,就有了这个问题。人工智能没有那么长的时间,人类的历史有上千年的历史,但人工智能只有大概 60 年的历史。人工智能的早期,一个奠基性的人物是 Alan Turing ,大家都知道 Turing 是个数学家。大概在五六十年前,Turing 开始思考,怎么去创造一个 Thinking  Machine。他说:要建造一个智能的机器的话,可能最好的方法就是,通过最好的感官来提供给它,让它能够学会并且使用应用语言。


智能的 Machine,它需要两个特别重要的元素:

1、感知。我们可以看人最大的感知系统是视觉,人还有其他的感知系统,机器也可以有其它的感知系统,但视觉是一个最大的感知系统。

2、对含义的理解和推断。语言是人类最特别的一个能力,大多数人都会同意,动物是没有这样的能力的。


所以,Turing 远远没有建立起人工智能这个领域。但是,他带来了最起初的一些重要的思想元素:我们要做一个会思考的机器,里面需要包括:视觉、语言。Turing 之后,有这么一位科学家,他是计算机界的一位泰斗,是跟马文·明斯基在 MIT 第一批读人工智能的博士生,后来他到斯坦福做教授,他的名字叫 Terry  Winograd。Terry 是人工智能界,第一代把 Turing 的思想贯穿下去的人。他不光在人工智能领域做了最重要的工作,而且他后来转行去做人机交互,也把这个领域重新带动了起来。Terry 带来了什么?Terry 把人工智能应用在了怎么去建造一个思考的机器上。他说一个人,或者一个机器,要去理解世界,需要去感知。感知以后,需要做的第一件事是对这个世界的结构进行理解。这叫 Syntax  Understanding。Syntax 在自然语言处理领域叫语法,在计算机视觉这个领域可能叫三维结构。Terry 说,Syntax 以后,我们需要理解 Semantics(语义)。Semantis 做的事情就是 Understanding  Meaning(了解含义),语言有语言的含义,视觉有物体、有动作,有视觉的含义。


最后,当我们把 Semantics 和 Syntax 解决以后,智能的机器或者是人,主要解决的问题就是 Inference,Inference 就是统计推导、统计推理这个过程。所以在 Terry 看来  ,要实现人工智能,需要有这 3 个要素:Syntax、Semantics、Inference。有了这样的思想框架做引导,Terry 写了一篇在人工智能历史上非常重要的博士毕业论文。这个论文给了我们一个 System,我不知道在座有没有同行们听说过这个 SHRDLU,它用一个像积木一样的世界,用积木搭建了一个世界,在这个世界里,让我们来完成 Syntax(语法)、Semantics(语义)、Inference(推导)这样的 loop(循环)。这篇论文是 70 年代初写的,从 70 年代初一直到 80 年代末 90 年代,其实,人工智能貌似没有太多的发展。为什么呢?如果 70 年代就有一个计算机系统,可以理解人的指令。为什么我们到 2016 年,才关注到人工智能?2016 年,亚马逊的 Echo 和 Alexa,也好像做的事情区别不大。为什么 60 年代、70 年代、80 年代的人工智能,  没有我们预期的做得那么好,问题出在它的演进的过程。


在机器学习这个领域崛起之前,人工智能的系统都是 hand-design rules,这个 rule 十分复杂,而且都完全是用手工,用科学家的聪明的脑袋,想出来的 rule。这些 rule,会有什么样的问题?其实 Terry 这样绝顶聪明的人,他能建立这个系统,这个 rule 肯定已经是包罗万象了,但是这些 rule 还是有 3 个比较大的致命问题:

1、Scalable(可扩展的)。你不可能把天下所有的 rule,都写进一个程序。

2、Adaptable(可适应的)。当你给系统设计这个 rule 的时候,你很难把它转换到另外一个 rule。比如说,英文的语法、语义,我可以设计很多 rule。可是,我要把它放进中文,它的语法就完全不一样了,我就得重新设计出来一套 rule。

3、它是一个 Closed  word。


所以说,Hand-design  Rules 在 AI 这个领域发展的早期,给我们带来了一些曙光,但是它并没有把我们带进真正的光明。到了 80 年代开始,一个重要的子领域在人工智能领域开始发展,就是机器学习。机器学习是什么呢?机器学习和传统学习最大的区别,我在这里给大家画出来了。你可以想象,传统的学习,是用人认识这个知识,然后再灌输给它,让机器学习,这就像 Terry 他们做的事情一样。但是,机器学习不一样,机器学习是把认知知识这一层给省掉了,可以直接把数据放进学习组件,让这个学习组件去学习一个知识,这个知识可以发挥作用。但最近一个特别重要的算法,就是所谓的 Artificial Neural Network,从 80 年代开始,它叫神经网络。神经网络有很长的历史,50 年代 Rosenbatt 就提出了 PERCEPTRON 这个概念,这个概念就是把这些细胞怎么结合起来,然后一层一层地输入数据,然后输出结果(take layers of input and take output)。到了 60 年代初,一个重要的神经生物学的发现,又推动了这个思路,这就是 Huble and Wiesel,在通过对猫的脑子做实验的时候发现,哺乳动物视觉的感知,实际就有这种神经网络的概念,它是一层一层的细胞不断的推进,从简单的层面到复杂的层面。到了 1980 年,70 年代末,一个重要的日本计算机科学家,叫 Fukushima,做出了第一个 Neocognnitron 的神经网络,可以识别数字和字母。到了 90 年代末,通过 Geoffrey Hinton、Yan LeCun 进一步的把学习的 rules 更优化了以后,就出现了今天大家比较熟悉的卷积神经网络。


最近,给我们带来最大的一次神经网络,或者叫深度学习冲击的 work,是 2012 年 Alex Krizhevsky 和他的导师 Geoffrey Hinton,一块写的 AlexNet,其实 AlexNet 和 1998 年的 Convolutional Neural Networks 区别不大。

但是,为什么在 2012 年这个大致的历史时期,深度学习和神经网络发生了一次井喷式的成长和革命呢?是因为 3 个重要的因素:

1、这些算法的不断优化和成长。

2、互联网给我们带来的海量数据,这也是我和我的学生们,在 9 年前做的一项工作 ImageNet。

3、硬件的发展。


所以很多人就说,Deep Learning 的三个 Ingredients : Algorithms(算法)Data(数据)和 Computation(运算)。它给我们带来了一次革命性的飞跃。有了这个深度学习和机器学习的崛起,我们其实可以重新回到 Turing 和 Terry 给我们搭建的 AI 大的思路和框架里,重新解决一些在没有机器学习前完全解决不了的问题。比如说,计算机视觉里面 Syntax 这个问题,这个问题实际上就是三维场景的结构,视觉世界的结构。这个问题,在过去的二三十年,有了长足的发展,用了很多跟机器学习的方法。今天,为什么无人车可以开始产业化,在算法方面很大的原因要感谢 3D 视觉,这几十年来的成就。这是其中一部分。


第二部分,我们说 Semantics 这个问题,在计算机视觉里面它是物体分类、场景分类、物体切割这些。这个领域,也是在这几年有蓬勃的发展,我们 Image Captioning 团队一直在主持一个国际上的竞赛。从 2010 年开始,一直到 2015 年、2016 年,机器的进步,已经基本上达到了,甚至它有时候超越了人的水平。你现在看到的这幅图是机器的错误率,2010 年第一界 Image Captioning 的时候,错误率还在 28% 左右。到了去年 2015 年,这个错误率已经到了 3.6%,人也差不多就是这个水平。所以,这是一个非常长足的进步。

刚才,我给大家分享的是两个单独的元素:Syntax、Semantics。其实,就像 Terry 提出的一样,要真正做好 AI,要把这些元素全部结合起来。我们一步一步来看,下一步要结合的是 Syntax、Semantics 在计算机视觉里面它就是场景结构和语义,或者物体含义,一块的融合。这项工作,也有不少人做,前段时间斯坦福的另外一位计算机视觉教授搜沃塞维塞西,他们做了项比较重要的工作,就把这个 3D 的建模和物体场景的识别,结合起来了。

我们再往下推进一步,可以看出,我们现在在尽量完善这个图片。我们现在把 Language 加进来,结合 Vision,这是 Turing 给我们提出来的人的智能终极目标之一。


所以,Language 和 Vision,是最近人工智能界非常关注的点。下面这个工作,主要结合的是 Syntax 和 Inference,它结合了 Semantics,这是我的实验室最近和 Facebook 的一次合作。我们联合发现了一个 Benchmark(基准),它的意义是什么呢?我们跟 ImageNet 比较一下,ImageNet 主要在测试机器对 Semantics 的认知能力,就是物体分类。这项工作,我们把它取名叫 CLEVR,它测试的是机器对 Language Vision 在 Syntax 和 Inference 方面能达到多好,它跟 ImageNet 基本上是反的。具体是怎么做呢?具体我们用了一个图像引擎,去模仿很多很多的场景,又回到了更像积木一样的世界。在这些场景里面,我们又自动生成了很多问题。比如说,这张图里有没有和半球一样大的积木?这些问题是在挑战这个计算机系统对场景结构的理解,这个结构里面包括物体的大小,或者物体的材料,包括数字计算,也包括比较的能力,也包括空间的关系,最后包括逻辑运算。所以,这在测试计算机好几层的能力。这个数据库,组成了很多很多不同的场景,提出了很多不同的问题。然后,我们就可以通过用最好的深度学习模型,来测试计算机做的怎么样。其中最好的,比如用 CNN 和 LSTM, 没有听过也没有关系,这是一种深度学习的模型。然后我们就会发现,计算机现在远远达不到人类的,比如数数能力,或者现在对材料的分析还不够好。而且,我们也远远达不到比较的能力,人是很容易比较出一个东西比另外一个东西大,计算机现在还远远没有达到。


这项工作还告诉我们,在 Syntaxt 和 Inference 方面,人工智能其实还任重道远,CLEVR 这个 Benchmark,就给我们指出了一些比较明确的方向。


最后一点,我们怎么把 language、Syntax 和 Semantics 一块融合进来?


这是最近我们做的一系列关于看图说话的工作。看图说话就是,一个图片进来,我希望这个计算机讲出一个故事,比如一句话「两个男人在玩飞盘」。这个模型,我们是用了一个图片的模型,再加上一个语言的模型。图片的模型用的是卷机神经网络,语言的模型用的是一个 LSTM。刚开始,这个计算机在还没有足够学习能力的时候,给出的语句是非常傻的,慢慢的它就开始学习这个图片的内容了。到了最后,它可以说出其中的内容。


在我结束之前,跟大家分享一下,我们认为下一步计算机视觉和人工智能,包括自然语言处理,还要往下怎么走。Terry 和 Turing 给我们指出了这个结合 Syntaxt,Inference 和 Semantics 的路径,我们远远还没有完成这个愿景。比如说这幅图,现在计算机视觉可以告诉我们,这个图里有一些人,甚至这幅图的三维结构是什么,或者给我们一句话或者给我们几句话、N 句话,就像刚才我们看的。但是,我们人看到的远远不止这些,我们人看到的是一个非常有意思的故事,我们知道这里面的人是谁,我们知道他们的关系是什么,我们知道他们的情绪是什么,我们知道这幅图的幽默点在哪里。它可以给我们带来很多很多信息,这是计算机现在远远没有达到的。


https://v.qq.com/txp/iframe/player.html?vid=r0346k5im0j&width=500&height=375&auto=0
【李飞飞教授谈】:人工智能的未来


为什么选择做人工智能领域的研究?

机器人视觉的未来?

人工智能为什么这两年火起来了? 软件算法、大数据、硬件发展)

人工智能的未来是否被夸大?(人工智能是第四次工业革命最关键的一个因素)

人工智能最大的瓶颈是? (认知)

三五年之内,您觉得哪些方面人工智能的应用会特别广泛?

(哪里有需求?那里就有应用!如无人车、电子商务等)

创业公司的机会在哪里?(掌握数据、不同场景、消费级客户、商业企业级客户)

人工智能的技术难题和社会问题?(根据价值观)

人工智能会超越人类智慧吗?

斯坦福人工智能实验室?

人工智能人才的多样化?(计算机科学、电子工程、数学、神经生物、物理学等)

人文科学与人工智能?    (人性的探索与科技)


https://v.qq.com/txp/iframe/player.html?vid=s03485h175l&width=500&height=375&auto=0

李飞飞【TED演讲】:我们如何教计算机理解图像


当一个非常小的孩子看到图片时,她可以辨认出里面简单的要素:"猫""书""椅子"。现在,电脑也聪明得可以做同样的工作了。接下来呢?在这个令人震撼的演讲里,计算机视觉专家李飞飞介绍了这一技术的发展现状——包括她的团队为了"教"计算机理解图片所建立的一千五百万照片的数据库——而关键性的要点还不止于此。


演讲内容

这是一个三岁的小孩 在讲述她从一系列照片里看到的东西。 对这个世界, 她也许还有很多要学的东西, 但在一个重要的任务上, 她已经是专家了: 去理解她所看到的东西。 我们的社会已经在科技上 取得了前所未有的进步。 我们把人送上月球, 我们制造出可以与我们对话的手机, 或者订制一个音乐电台, 播放的全是我们喜欢的音乐。 然而,哪怕是我们最先进的机器和电脑 也会在这个问题上犯难。 所以今天我在这里, 向大家做个进度汇报: 关于我们在计算机 视觉方面最新的研究进展。 这是计算机科学领域最前沿的、 具有革命性潜力的科技。


是的,我们现在已经有了 具备自动驾驶功能的原型车, 但是如果没有敏锐的视觉, 它们就不能真正区分出地上摆着的是一个压扁的纸袋, 可以被轻易压过, 还是一块相同体积的石头, 应该避开。 我们已经造出了超高清的相机, 但我们仍然无法把 这些画面传递给盲人。 我们的无人机可以飞跃广阔的土地, 却没有足够的视觉技术 去帮我们追踪热带雨林的变化。 安全摄像头到处都是, 但当有孩子在泳池里溺水时 它们无法向我们报警。 照片和视频,已经成为 全人类生活里不可缺少的部分。 它们以极快的速度被创造出来, 以至于没有任何人,或者团体, 能够完全浏览这些内容, 而你我正参与其中的这场TED, 也为之添砖加瓦。 直到现在,我们最先进的 软件也依然为之犯难: 该怎么理解和处理 这些数量庞大的内容? 所以换句话说, 在作为集体的这个社会里, 我们依然非常茫然,因为我们最智能的机器 依然有视觉上的缺陷。


”为什么这么困难?“你也许会问。 照相机可以像这样获得照片: 它把采集到的光线转换成 二维数字矩阵来存储 ——也就是“像素”, 但这些仍然是死板的数字。 它们自身并不携带任何意义。 就像”听到“和”听“完全不同, ”拍照“和”看“也完全不同。 通过“看”, 我们实际上是“理解”了这个画面。 事实上,大自然经过了5亿4千万年的努力 才完成了这个工作, 而这努力中更多的部分 是用在进化我们的大脑内 用于视觉处理的器官, 而不是眼睛本身。 所以"视觉”从眼睛采集信息开始, 但大脑才是它真正呈现意义的地方。


所以15年来, 从我进入加州理工学院攻读Ph.D. 到后来领导 斯坦福大学的视觉实验室, 我一直在和我的导师、 合作者和学生们一起 教计算机如何去“看”。 我们的研究领域叫做 "计算机视觉与机器学习"。 这是AI(人工智能)领域的一个分支。 最终,我们希望能教会机器 像我们一样看见事物: 识别物品、辨别不同的人、 推断物体的立体形状、 理解事物的关联、 人的情绪、动作和意图。 像你我一样,只凝视一个画面一眼 就能理清整个故事中的人物、地点、事件。


实现这一目标的第一步是 教计算机看到“对象”(物品), 这是建造视觉世界的基石。 在这个最简单的任务里, 想象一下这个教学过程: 给计算机看一些特定物品的训练图片, 比如说猫, 并让它从这些训练图片中, 学习建立出一个模型来。 这有多难呢? 不管怎么说,一只猫只是一些 形状和颜色拼凑起来的图案罢了, 比如这个就是我们 最初设计的抽象模型。 我们用数学的语言, 告诉计算机这种算法: “猫”有着圆脸、胖身子、 两个尖尖的耳朵,还有一条长尾巴, 这(算法)看上去挺好的。 但如果遇到这样的猫呢? 它整个蜷缩起来了。 现在你不得不加入一些别的形状和视角 来描述这个物品模型。 但如果猫是藏起来的呢? 再看看这些傻猫呢? 你现在知道了吧。 即使那些事物简单到 只是一只家养的宠物, 都可以出呈现出无限种变化的外观模型, 而这还只是“一个”对象的模型。


所以大概在8年前, 一个非常简单、有冲击力的 观察改变了我的想法。 没有人教过婴儿怎么“看”, 尤其是在他们还很小的时候。 他们是从真实世界的经验 和例子中学到这个的。 如果你把孩子的眼睛 都看作是生物照相机, 那他们每200毫秒就拍一张照。 ——这是眼球转动一次的平均时间。 所以到3岁大的时候,一个孩子已经看过了 上亿张的真实世界照片。 这种“训练照片”的数量是非常大的。 所以,与其孤立地关注于 算法的优化、再优化, 我的关注点放在了给算法 提供像那样的训练数据 ——那些,婴儿们从经验中获得的 质量和数量都极其惊人的训练照片。


一旦我们知道了这个, 我们就明白自己需要收集的数据集, 必须比我们曾有过的任何数据库都丰富 ——可能要丰富数千倍。 因此,通过与普林斯顿大学的 Kai Li教授合作, 我们在2007年发起了 ImageNet(图片网络)计划。 幸运的是,我们不必在自己脑子里 装上一台照相机,然后等它拍很多年。 我们运用了互联网, 这个由人类创造的 最大的图片宝库。 我们下载了接近10亿张图片 并利用众包技术(利用互联网分配工作、发现创意或 解决技术问题),像“亚马逊土耳其机器人”这样的平台 来帮我们标记这些图片。 在高峰期时,ImageNet是「亚马逊土耳其机器人」 这个平台上最大的雇主之一: 来自世界上167个国家的 接近5万个工作者,在一起工作 帮我们筛选、排序、标记了 接近10亿张备选照片。 这就是我们为这个计划投入的精力, 去捕捉,一个婴儿可能在他早期发育阶段 获取的”一小部分“图像。


事后我们再来看,这个利用大数据来训练 计算机算法的思路,也许现在看起来很普通, 但回到2007年时,它就不那么寻常了。 我们在这段旅程上孤独地前行了很久。 一些很友善的同事建议我 做一些更有用的事来获得终身教职, 而且我们也不断地为项目的研究经费发愁。 有一次,我甚至对 我的研究生学生开玩笑说:我要重新回去开我的干洗店 来赚钱资助ImageNet了。 ——毕竟,我的大学时光 就是靠这个资助的。


所以我们仍然在继续着。 在2009年,ImageNet项目诞生了—— 一个含有1500万张照片的数据库, 涵盖了22000种物品。 这些物品是根据日常英语单词 进行分类组织的。 无论是在质量上还是数量上, 这都是一个规模空前的数据库。 举个例子,在"猫"这个对象中, 我们有超过62000只猫 长相各异,姿势五花八门, 而且涵盖了各种品种的家猫和野猫。 我们对ImageNet收集到的图片 感到异常兴奋, 而且我们希望整个研究界能从中受益, 所以以一种和TED一样的方式, 我们公开了整个数据库, 免费提供给全世界的研究团体。


那么现在,我们有了用来 培育计算机大脑的数据库, 我们可以回到”算法“本身上来了。 因为ImageNet的横空出世,它提供的信息财富 完美地适用于一些特定类别的机器学习算法, 称作“卷积神经网络”, 最早由Kunihiko Fukushima,Geoff Hinton, 和Yann LeCun在上世纪七八十年代开创。 就像大脑是由上十亿的 紧密联结的神经元组成, 神经网络里最基础的运算单元 也是一个“神经元式”的节点。 每个节点从其它节点处获取输入信息, 然后把自己的输出信息再交给另外的节点。 此外,这些成千上万、甚至上百万的节点 都被按等级分布于不同层次, 就像大脑一样。 在一个我们用来训练“对象识别模型”的 典型神经网络里, 有着2400万个节点,1亿4千万个参数, 和150亿个联结。 这是一个庞大的模型。


借助ImageNet提供的巨大规模数据支持, 通过大量最先进的CPU和GPU, 来训练这些堆积如山的模型, “卷积神经网络” 以难以想象的方式蓬勃发展起来。 它成为了一个成功体系, 在对象识别领域, 产生了激动人心的新成果。 这张图,是计算机在告诉我们: 照片里有一只猫、 还有猫所在的位置。 当然不止有猫了, 所以这是计算机算法在告诉我们照片里有一个男孩,和一个泰迪熊; 一只狗,一个人,和背景里的小风筝; 或者是一张拍摄于闹市的照片比如人、滑板、栏杆、灯柱…等等。有时候,如果计算机不是很确定它看到的是什么, 我们还教它用足够聪明的方式给出一个“安全”的答案,而不是“言多必失” ——就像人类面对这类问题时一样。 但在其他时候,我们的计算机算法厉害到可以告诉我们关于对象的更确切的信息, 比如汽车的品牌、型号、年份。


我们在上百万张谷歌街景照片中 应用了这一算法, 那些照片涵盖了上百个美国城市。 我们从中发现一些有趣的事: 首先,它证实了我们的一些常识: 汽车的价格,与家庭收入 呈现出明显的正相关。 但令人惊奇的是,汽车价格与犯罪率 也呈现出明显的正相关性, 以上结论是基于城市、或投票的 邮编区域进行分析的结果。


那么等一下,这就是全部成果了吗? 计算机是不是已经达到, 或者甚至超过了人类的能力? ——还没有那么快。 目前为止,我们还只是 教会了计算机去看对象。 这就像是一个小宝宝学会说出几个名词。 这是一项难以置信的成就, 但这还只是第一步。 很快,我们就会到达 发展历程的另一个里程碑: 这个小孩会开始用“句子”进行交流。 所以不止是说这张图里有只“猫”, 你在开头已经听到小妹妹 告诉我们“这只猫是坐在床上的”。


为了教计算机看懂图片并生成句子, “大数据”和“机器学习算法”的结合 需要更进一步。 现在,计算机需要从图片和人类创造的 自然语言句子中同时进行学习。 就像我们的大脑, 把视觉现象和语言融合在一起, 我们开发了一个模型, 可以把一部分视觉信息,像视觉片段, 与语句中的文字、短语联系起来。


大约4个月前, 我们最终把所有技术结合在了一起, 创造了第一个“计算机视觉模型”, 它在看到图片的第一时间,就有能力生成 类似人类语言的句子。 现在,我准备给你们看看 计算机看到图片时会说些什么 ——还是那些在演讲开头给小女孩看的图片。


当然,我们还在努力改善我们的算法, 它还有很多要学的东西。 计算机还是会犯很多错误的。所以…当然——如果它看过太多种的猫, 它就会觉得什么东西都长得像猫……或者…如果它从没见过牙刷, 它就分不清牙刷和棒球棍的区别。它还没学会像你我一样 欣赏大自然里的绝美景色。


所以,这是一条漫长的道路。 将一个孩子从出生培养到3岁是很辛苦的。 而真正的挑战是从3岁到13岁的过程中, 而且远远不止于此。 让我再给你们看看这张 关于小男孩和蛋糕的图。 目前为止, 我们已经教会计算机“看”对象, 或者甚至基于图片, 告诉我们一个简单的故事。


但图片里还有更多信息 ——远不止一个人和一个蛋糕。 计算机无法理解的是: 这是一个特殊的意大利蛋糕, 它只在复活节限时供应。 而这个男孩穿着的 是他最喜欢的T恤衫, 那是他父亲去悉尼旅行时 带给他的礼物。 另外,你和我都能清楚地看出, 这个小孩有多高兴,以及这一刻在想什么。


这是我的儿子Leo。 在我探索视觉智能的道路上, 我不断地想到Leo 和他未来将要生活的那个世界。 当机器可以“看到”的时候, 医生和护士会获得一双额外的、 不知疲倦的眼睛, 帮他们诊断病情、照顾病人。 汽车可以在道路上行驶得 更智能、更安全。 机器人,而不只是人类, 会帮我们救助灾区被困和受伤的人员。我们会发现新的物种、更好的材料, 还可以在机器的帮助下 探索从未见到过的前沿地带。


一点一点地, 我们正在赋予机器以视力。 首先,我们教它们去“看”。 然后,它们反过来也帮助我们, 让我们看得更清楚。 这是第一次,人类的眼睛不再 独自地思考和探索我们的世界。 我们将不止是“使用”机器的智力, 我们还要以一种从未想象过的方式, 与它们“合作”。



我所追求的是: 赋予计算机视觉智能, 并为Leo和这个世界, 创造出更美好的未来。



龙为公司:

2016CCTV央视财经论坛暨中国上市公司峰会:中国机器人走进众多服务领域

龙为|龙为公司拜访中国机器人产业奠基人之一“贾培发”教授

龙为|龙为公司拜访中国最大的机器人上市公司“新松机器人”

龙为|龙为公司当选“一带一路政企对接平台 智能机器人产业应用中心 理事长单位”

龙为|龙为公司见证中国首部《中国机器人》新书首发式

龙为|龙为机器人荣获央视、北京卫视“中国最佳机器人服务商“称号

龙为|龙为公司成为世界500强北汽集团(福田和北汽新能源)“品牌运营服务商”

龙为|龙为公司成为世界500强“中国建设银行”的“品牌运营服务商”

龙为|龙为公司成为中国500强“亚洲最大乳企-伊利集团”的“品牌运营服务商”

龙为|龙为公司成为中国500强“平安银行”的“品牌运营服务商”

龙为|龙为公司成为中国500强“华夏银行”的“品牌运营服务商”

龙为|龙为公司成为“香河城市规划展览中心”的“品牌运营服务商”

龙为|龙为机器人成为“中国婚庆行业”的“智能科技品牌运营服务商”

龙为|龙为公司成为《中国企业家杂志三十周年》的“智能科技品牌运营服务商”


全球各个国家及各大企业大力发展—人工智能机器人产业


全球化:

全球化|第四次工业革命

智能科技:解密物联网

【头条】:国家主席和各国元首为什么对机器人如此重视?

【头条】比尔·盖茨:下一个改变世界的技术是机器人

【头条】著名科学家霍金:地球是人类唯一家园 未来人机共融

【头条】:全球智能机器人创业公司图谱

【头条】:全球智能服务机器人全解读 “新一代智能终端 “

【头条】:2016年全球智能机器人RBR50强 “中国3家(新松、大疆、富士康) “

【头条】:2016年冬季达沃斯“智能机器改变世界

【头条】:机器人时代“机器人热潮将引发全球思考

【头条】:改变世界的智能机器—智能机器人发展思考

【头条】:20年内人工智能机器人将像手机一样普遍

【头条】:未来,与机器人竞争,你赢得了么?

2016年(第二届)世界机器人大会全集(含2015年第一届)

全球前十大雇主中的三家已经部署机器人战略

全球各种机器人手臂的应用

全球各大机器人竞赛汇总

机器人“奥运会”

机器人的大世界

生活中的各种机器人场景|机器人戏剧

科学家们是怎样制造智能机器人的?(视频)

人工智能究竟是什么?

人工智能的商业化之路

人工智能机器人 添彩未来

人工智能机器人的发展和应用

人工智能&设备&人工智慧-未来主流

人工智能进入艺术设计领域

【人和机器的边界】人工智能指数级飙升的人类未来

【纪录片】:寻找人工智能

局 | 解码人工智能、机器人创业创新

【机器+人工智能】服务于人们的生活

AI互联网(人工智能+机器人+互联网)

AI机器人替换金融理赔、AI机器人参加高考

人们的生活要不被机器取代 要不被机器结合

人工智能互联汽车 消费新逻辑

预见2017:正在和即将发生的未来科技

迎接2017:2016年央视《对话》节目共三期“人工智能”(完整版视频)

直击2017CES|人工智能和机器人、物联网、虚拟现实(VR、AR)、智能家居、智能汽车


全球各国:

【中国人工智能、美国MIT机器人】MIT机器人12项前沿技术、中国人工智能(腾讯、百度、360、小米、今日头条)

【中国、瑞士ABB】:中国福建首台电力机器人上岗、银行客服机器人、瑞典世界500强ABB自动化

【日本、美国、中国】:丰田将发售机器人“希望”迷你版

【中国、美国、新加坡】:银行助理机器人、餐饮服务机器人、餐饮自动化

【美国、中国、日本】:美国facebook科技创新、中国泊车车载机器人、日本东京未来科技馆机器人互动

【美国、日本、中国】:美国的流水线机器人和导购机器人、日本生活辅助机器人、中国的服务机器人

【美国、新加坡、中国】:美国的机器人有望代替裁判执法NBA比赛、新加坡的机器人建筑质检员、美国的机器人格斗比赛

【中国、美国、以色列、英国、瑞士】:快递机器人、仿人机器人、无人机

【中国、日本、美国、法国、以色列、巴西】医疗健康、护理康复、外骨骼机器人

【美国、韩国、日本】:美国消防机器人、韩国军用机器人、日本向导机器人


美国:

GE:通用电气(GE)呈现|[机器人篇]工业互联网(完整版视频)

微软:微软的“人工智能机器人”

苹果:

苹果机器人11秒把 iPhone大卸八块(含乔布斯斯坦福毕业演讲)

2016苹果WWDC大会(人工智能和iOS 10以及OS X的系统)

谷歌:

谷歌为何如此痴迷于人工智能和机器人(含视频)

谷歌I/O大会:人工智能,智能机器人,VR标准,机器人学习系统

IBM:

IBM 沃森机器人和人工智能(含视频)

IBM沃森人工智能

亚马逊:

亚马逊仓库被机器人占有(含亚马逊创始人贝索斯演讲视频)

亚马逊Amazon Go自动便利店

Facebook:

Facebook的三大愿景:连网、人工智能机器人、虚拟现实(内含扎克伯格清华大学“中文秀”和IEEE访谈)

Facebook人工智能管家“Jarvis 贾维斯

特斯拉:解密特斯拉工厂,机器人无处不在(埃隆马斯克TED大会视频)

高通:美国高通的下一个战略:机器人领域(含视频)

英特尔:

英特尔的机器人战略:3D打印机器人、Segway平衡车机器人、全向变形机器人(完整版视频)

Uber:Uber的发展历史:”人工智能,机器人技术“ 功不可没


人工智能机器人之父:艾伦·图灵

斯坦福大学:人工智能机器人的百年计划(Al100)

卡内基梅隆大学人工智能机器人实验室:我们身边的人工智能机器人

雷伊·雷蒂(图灵奖|卡内基梅隆大学机器人研究院创始院长):人工智能机器人让我们生活更智能


日本:

日本绝密实验室视频曝光:智能机器人与人类共融

【智能科技】:世界经济之旅东京

本田:本田的“阿西莫”超人形智能机器人(完整版)

丰田:丰田的三款陪伴机器人 挑战本田的“阿西莫“机器人

软银:

软银的三款智能机器人—NAO、Pepper、Romeo(孙正义计划用机器人产业重塑日本经济)(完整版视频)

松下:

日本“松下”的机器人战略:外骨骼机器人、助理康复机器人、Rulo扫地机器人、通信机器人、全自动洗头机器人(全套完整版)

松下自动结账机器人

索尼:SONY 索尼的机器人计划(内含SONY科幻短片「The Last One」)

夏普:夏普的创新之作:机器人形手机“RoBoHoN” 

安川:百年安川,匠心独运(含视频)

日本:“机器人界的乔布斯”高桥智隆:走进机器人的世界


德国:

西门子:德国西门子工业4.0及数字化工厂(视频)

博世:百年博世,智能时代;百年博世,工业 4.0

库卡:库卡机器人VS乒乓球世界冠军波尔

德国汉诺威:

解密让奥巴马玩嗨的德国汉诺威工业4.0

2016年德国汉诺威工业博览会

2016德国CeBIT展:智能智造、智能机器人、人工智能(德国汉诺威消费电子信息通信博览会)


韩国:

三星:人工智能在路上

           智能机器人战略(完整版视频)


以色列:

快递机器人、行李箱机器人、Dogo射击机器人

医疗健康、护理康复、外骨骼机器人


中国:

中国首家机器人博物馆

机器人的大世界

《习近平关于科技创新论述摘编》

习主席见人工智能机器人,中国创造

总理老友记:“智”从何来 “造”到哪去

科技创新:人工智能机器人 全国科技创新大会 两院院士大会

中国智造:(互联网+智能制造)深度报告

中国机器人产业应用前景广阔

中国机器人产业五年发展规划(2016—2020年)

国内首款总理接见过的智能机器人(去过中南海)

智能机器人全场景时代

人工智能机器人 添彩未来

《创新之路》:人工智能机器人的应用创新(想象力和创造力)

央视《对话》:人工智能未来的极限到底在哪里?(含两期完整版视频)

央视《开讲啦》:人工智能机器人时代已经悄悄来临

央视《开讲啦》:中国工程院院士 李德毅:人工智能

2016中国发展高层论坛:马云、扎克伯格(机器人、人工智能AI、虚拟现实VR

2016博鳌:人机融合是趋势

2016博鳌亚洲论坛全解读:亚洲新未来,新活力与新愿景

2016中国数博会:聚焦人工智能、机器人、VR、大数据热点应用,开启智能时代

2016上海CES(亚洲消费电子展):智能机器人,无人机,VR,自动驾驶成为主旋律

中国海关首次启用智能机器人辅助查验

神秘产品,2016年工博会,一起揭晓

百度张亚勤、联想杨元庆、搜狗王小川:人工智能+设备+服务

【人工智能】:服务机器人奏响“狂想曲”

【中国智造】:实体经济-关键技术突破

【智能制造】:探秘智能工厂(芯片、大数据、云计算、软件系统)


华为:【全国科技创新大奖】:华为 任正非(以奋斗者为本  以客户为中心)

富士康:台湾富士康科技的机器人计划(内含郭台铭“真情告白“)

阿里巴巴:

首度解密《阿里巴巴》珍贵影像:马云和他的“少年阿里"《Dream Maker》(造梦者)

中兴:解密《ZTE 中兴:未来,不等待》(人工智能机器人之娱乐机器人)

联想: 解密《lenovo 联想》(人工智能机器人之仿人机器人)

万科:“谁的万科” 再起波澜!(人工智能机器人之探险机器人)

海尔:海尔:智能工厂、Ubot智能管家机器人、商用服务机器人

百度:

百度李彦宏:人工智能将成为互联网下一幕的核心动力

【第四季《最强大脑》将“人机大战”】:百度“小度”人工智能机器人 PK 人

【百度李彦宏剑桥大学:AI机器人时代】

腾讯:腾讯人工智能机器人布局盘点:未来你的生活要被企鹅承包了

京东:618大战:听一听“东哥”述说大数据如何推动商业变革

乐视:【乐视-FF91】新物种 重构未来 开启人工智能互联网生态汽车元年(完整版)

滴滴:滴滴出行:机器学习和人工智能让滴滴获得更高效率 


医疗健康养老:

飞越老人院

医疗健康、护理康复、外骨骼机器人

太空机器人:从太空看地球,震撼到美

酒店机器人:酒店机器人

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存