查看原文
其他

最受欢迎北大AI公开课!360集团颜水成:人工智能行业观察与实践

AI前线小组 AI前线 2023-11-28

来源|北大 AI 公开课
整理|Vincent
编辑|Debra

本文由 AI 前线(ID:ai-front)独家整理首发,未经授权请勿转载


AI 前线导读:人工智能领域存在着工业界与学术界的分别,近年来,随着 AI 高速发展,在这两个不同的世界里,分别发生了哪些大事件?作为一家以安全为主要业务的企业,360 又是如何在人工智能时代发挥作用?本期北大公开课请到了 360 副总裁,首席科学家,人工智能研究院院长颜水成教授,他将从 AI 观察者和实践者两个角度谈谈他对人工智能领域的洞察。

北京大学最受欢迎的 AI 公开课“人工智能前沿与产业趋势”于 2019 年 2 月20 日正式开课。本学期的课程邀请到了商汤科技副总裁沈徽、驭势科技 CEO 吴甘沙、微软亚洲研究院副院长周明、360 人工智能研究院院长颜水成、YC 中国创始人及 CEO、百度集团副董事长陆奇等 14 位来自产业界的大咖进行授课,AI 前线作为 独家合作媒体 将全程跟进并对北大这 14 场公开课进行整理,敬请关注!

更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)

课程导师:雷鸣, 天使投资人,百度创始七剑客之一,酷我音乐创始人,北大信科人工智能创新中心主任,2000 年获得北京大学计算机硕士学位,2005 年获得斯坦福商学院 MBA 学位。

特邀讲师:颜水成,360 集团副总裁,360 人工智能研究院院长,IEEE Fellow、IAPR Fellow 及 ACM 杰出科学家。他的主要研究领域是计算机视觉、机器学习与多媒体分析,发表 600+ 篇高质量学术论文,论文引用过 4 万次,H-index 94。2014、2015、 2016 、2018 四次入选全球高引用学者 (TR Highly-cited researchers )。

北大 AI 公开课第六讲回顾:《微软亚洲研究院周明:NLP 进步将如何改变搜索体验》

以下为 AI 前线独家整理的颜水成老师课程内容(略有删减)

对 AI 领域的观察

今天的分享主要分为两部分。

首先,作为一个 AI 领域的观察者,我想谈谈在学术界、工业界和创业的团队里,发生了一些什么事情,以及我个人对这些事情的一些看法;另外,作为一个 AI 实践者,我想为大家分享一下 360 在大安全概念的指引下,AI 发展的走势和进展。

在过去的将近一年多的时间里面,我觉得有两件事情对 AI 的影响是非常大的。

第一件事情是,在去年年初的时候,区块链和比特币爆发的时间点,很多 VC(风投)突然一下,好像对人工智能丧失了兴趣,把精力和投资的欲望完全转向了区块链,就像上面左侧这张图描述的那样。当然,这件事情也不完全是坏事,有一个好处是:大家对区块链和比特币有了更清楚的认识。

另一件事情发生之后,AI 又渐渐地开始回暖。今年,深度学习的三架马车:Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun,拿到图灵奖之后,又为 AI 注入了一个强心针,大家有更强烈的热情去推动 AI 往前发展。

在学术界,我第一个观察到的是什么呢?大家可以看到,AI 的论文的数目已经完全超越了所有学者能够阅读的极限。今年恰好我是 ICCV、CVPR、AAAI 和 IJCAL 四个会议的 area chair。其中,AAAI 已经结束了,收到投稿量是 7095 篇,接收了 1150 篇;CVPR 是在 2 月底开的这个 area chair  Meeting,收到了 5100 多篇论文,接收了 1300 篇,ICCV 和 IJCAL 还在审稿当中,分别至少有四千多篇的投稿。

过去我们参加一个会议,基本上利用四天左右的时间扫一遍会上感兴趣的文章,是完全没有问题的。但是现在每天发表的论文的速度,让学者完全没有时间去把它进行通读,这对于学者来说是一个非常大的挑战。很多人也希望利用 AI 来进行辅助,筛选自己感兴趣的 AI 论文,以利于我们能够更好学习 AI。


有一个人利用业余时间写了一个叫 Arxiv  Sanity  Preserver,希望用人工智能的方法,把读者感兴趣的论文给筛选出来,同时可以相应的去推荐一些用户可能会感兴趣论文,非常像信息流的推荐系统。我觉得如果 AI 能够帮助我们更好的读 AI 论文,也是一个非常有趣的事情。

第二个观察是,门派已经逐渐消失了。以计算机视觉为例,我在读书的时候,有 Adaboost 派、有 Deformable Model 派、有特征设计派,也有理论功底比较深的 And-Or Graph 派,但现在已经完全改变了,全民都想只用一招,就是 Hinton 的深度学习。

第三个观察到的现象是,现在论文的影响力出现了资源 Biased 的现象。什么意思呢?像 Google、Facebook、微软这样的大公司,也包括国内 BAT 这样的公司,要写一篇好的论文,可以调用的 GPU 的数量可能是成百的,甚至更多,但是在高校里面,一般一个学生只能分到一块到两块 GPU,情况好点的话,也许有八块 GPU 可以去做一篇论文。


可以看到,最近发表的这些原创的有影响力的论文,它使用的 GPU 的资源是非常令人惊讶的,比如谷歌这篇 NASNet 的论文,它花了 83 个 GPU-Days;另外一篇 Facebook 的论文,用了 7382 个 GPU-Days,这在学校里面是基本上不可能做到的事情;前不久发布的 BERT,用了 256 个 TPU-Days。

大家可以看到,这些工作确确实实都开创了一个新的时代,或者说一个新的方向,都非常有价值,但这些工作从某种意义上来说,已经是学术界没有办法去做的了。这个情况对于学校的研究者,以及 AI 研究公平性方面要引起反思,当然我们不能说它好或不好,但是事情都已经发生了,我们大家还是需要注意的。

第四个观察是,在近一年时间里出现的重要的进展,它们的落地性还不是特别的好,所以我们用了一个词叫:让子弹再飞一会。比如今年的 BigGAN 和 StarGAN,它的效果是确实非常好,但是我们也没有想清楚这个东西到底可用来干什么,到底有什么样的商业场景。

这可能是在接下来的一年或者更长的时间里面大家所需要思考的,比如今天的 BERT 效果非常的好,但是它的功耗实在太大了,还暂时没有办法直接在产品中使用,怎么样去降低功耗,让 BERT 模型仍然能够达到比较好的效果,是需要进一步往前推进的事情。

另外一个就是强化学习。Big  GAN 花了很多的人力在做这个方向的研究,但其实,GAN 在其他场景的价值,还没有得到充分的彰显。我们也曾经尝试,让它去解决比如像广告推荐、金融风控等方面的问题,但是后来跟其他的公司进行探讨的时候,我们发现强化学习在其中发挥的价值还是非常的小。这些东西都非常有价值,但是在实际的商业场景中,可能还需要让子弹再飞一会,或许还需要更长的时间,才能让它发挥出价值来。

另外一个观察是,在端上的高效的模型已经成为热点,而且是刚需。也就是说,现在深度学习已经从“可以用”时代逐步进入到“用的起”时代了。所以在过去这一年里,大家可以看到有非常多的相关工作和研究在进行,比如:怎么把硬件的特性考虑进去,可以让模型在端上能够有实时性?

学术研究 VS 工业研发

从学术界的角度来看,我们基本的目标是希望能有一些优质的论文发表,能在比赛上获得更好的成绩。我认为在学术界的研究更像是一种个人的冲锋战,但是到了工业界之后,特别是成熟的公司,他们的目标不只是做算法研究,或者说纯粹的发表论文,而是需要把技术放在一个闭环里面。

现在工业研发中,有两个维度非常重要,一个是价值闭环,一个是数据闭环。

“价值闭环”我第一次看到是在《创新者的窘境》这本书里面,它在里面讲了四个纬度:技术、产品、客户和体验。为什么有一些好的技术,在传统的大企业里面,反而落地非常困难?一个主要的原因是:技术虽然能够带来价值的增加,但是对于消费者、销售商、客户或者企业,如果有一方的利益没有增加,那他就没有动力去利用这项新技术。所以一定要把技术放在一个闭环里,让闭环里每个维度的人都感受到价值的增加,这样的话,才有可能让一项技术在传统的企业里被大量的采用。但这是非常困难的。

而据我们的观察,最近很多的互联网的产品,除了这四个纬度之外,还有一个维度也变得非常重要,就是社会价值观。当有一个产品的社会价值观没有起到正向的推动作用,往往这个产品也很可能会走向失败。

在闭环中,企业、技术、产品、客户、价值观,他们之间是相互依存的。我举一个例子来说明。


首先我们肯定是通过技术创新来孵化新的产品,但是我们会在真实产品中,去收集有效的数据,用这些数据来迭代和优化我们的技术,最终技术又进一步的提升产品的体验。

我们来看看用户的 feedback 会对我们的产品产生什么样的有意义的价值。

我们 360 做了一个扫地机器人,扫地机器人纯粹依靠传感器来转向有时候不是那么精确,有时候需要依靠碰撞的方式来确定是不是到边界了。我们其实一开始并没有在机器人外面做缓冲装置,而是有个用户,他自己在扫地机器人上面加装了这个东西,这样的话,当机器人碰到一些比较脆弱的,或者比较珍贵的家具的时候,就起到了一个很好的保护作用。

这些东西在公司里面,可能很少有人会这么去想,但是我们有这么多的用户,用户会根据他真实碰到的问题,有些时候会产生一些非常创新的想法,这个想法返回到我们企业里,有可能会给我们的产品带来进一步的改良和优化。

第二,数据闭环。这其实是非常重要的,特别是对算法来说,我们一定要建立起数据闭环。我们一般会专注在算法模型的部分。算法模型和产品本身产生的这个数据,以及用户在使用过程中产生的各种交互的数据,要把它形成一个闭环。

比如:算法模型为智能产品提供一个功能,同时智能产品又为用户提供服务,用户在使用过程中,又会有很多反馈信息,它们合在一起,形成一个闭环,这个闭环是我们发现问题、解决问题和不断的去迭代产品的一个过程。

以 360 的一款门铃产品为例,这款产品有人脸识别,或者人形检测等等功能,这项功能部署在云端或者本地端,产品就会进行实时的分析,而这些分析的结果,就会发送到用户的手机上,用户在使用手机的时候,可能一开始并不知道是哪些人,但是收集到的数据比较多之后,系统就会把人聚堆,用户也可以对某个人进行标注,系统也可能会帮用户把标注内容分成几个小的聚堆。这些信息反馈回来之后,我们可以用这些数据去进一步提升人脸识别,或者人形识别的精确度。

那么为什么要建立一个闭环呢?我觉得一个核心是:因为 AI 没有完美的算法,比如设计一个人脸识别的算法,并不一定在所有场景都能取得很好的效果。至于为什么人脸识别的一些公司能存活下来?我认为主要原因是:每家公司都在特定的一些场景下,有自己的数据优势,可能在某个场景下,A 公司能一统天下,别的公司就没有办法能够进来。

另外,特定场景的数据,还可以不断的优化算法。最关键一点:产品算法模型的优劣并不是产品成败的直接决定因素,产品的设计、用户交互的友好性等等都要不断的考虑进去。这些因素可以在用户的反馈和数据的生成过程当中逐步得到,最后能形成一个非常有竞争力的产品出来。


对于学术界研究和工业界研发的差别我有一个小的总结:我认为学术界更像是两个人在谈恋爱,工业界更像是结婚后的男女。

如何理解呢?学术界的研究,每天一点点的进步都会让你非常的开心,比如你有一个 idea,发表了一篇论文,同时还希望达到新的境界,希望发一堆论文出来,看到的全是好的一面,而且你可以自由的憧憬,为什么?因为暂时没有人催你生孩子(产品),你可以梦想如果我用这些技术打造出一个产品会多么的美好,而且你会认为这个产品一定会是世界上最好的产品,因为反正你不用真的把这个孩子给生出来。这就是学术界的情况。

但是到了工业界,更像是结婚后的男女,你发现生孩子(产品)成了你最首要的任务,因为你的老板天天会催着你生孩子。你以为生出来的孩子很乖巧,特别是刚从学术界出来的时候,会认为我做出来的产品肯定是世界上最好的,但是来到工业界之后,你会发现一堆的问题,一堆的毛病,有很多问题你之前根本没有想过,比如供应链、销售等等,有各种各样的问题,都是你没有想到的。以前你不关心的因素,后来成为了最关键的因素。

用户不喜欢产品,你就要不停的根据经验和用户反馈来调整,最后这个产品越来越好了,你的头发也白了,身体也坏了,但是看着自己的孩子还是一脸的幸福。这确实是学术界和工业界的差别。

成熟企业 VS 创业公司

我觉得创业公司,其实有些相似性,特别在技术的维度。所以我把关于初创企业的一些观察,和成熟企业的观察就放在一起了。

首先对于初创公司来说,AI 不是一个最终的产品,它必须要跟具体的场景和业务相结合才有价值。我们总是要明白,AI 只是在一个闭环里面的一个子链条或者一个加速器,它并不能算是一个产品。

比如做一个智能硬件,除了算法之外还有产品的工程化、设计、市场销售、服务器,还要考虑 AI 的硬件化,让它能够更加的高效。但是我们往往更没有想到的是供应链和售后到底会发生什么事情。这些是我们刚开始不会想事情。

第二点,我们要承认 AI 技术已经不是孤品了,它已经不存在什么真正意义上的必杀技。我在观察的时候,突然想起我看过的《马达加斯加》,感觉非常形象:在纽约时代,这匹斑马就是一个孤品,因为没有别的同类,它所会的一切技能就是必杀技;但是当他回到草原的时候发现不是这样了,其他的同类也都会同样的技能。这段视频非常好的描述了当前的 AI 的状况,AI 技术已经不再是孤品,那么大家也不必幻想 AI 存在必杀技。我们现在更多的需要考虑,AI 怎么样能跟商业闭环融合在一起,逐步形成它的壁垒。

另外,AI 是没有完美的算法的,但是我们又希望有毫无瑕疵的用户体验。去年我也分享过,想做一款好的产品,纯粹的算法科学家是不够的,你需要有产品的工程师来帮助你去用不完美的算法,产生无瑕疵的用户体验。

举个例子,比如说你有人脸方面的各种技术,如果你只是想用它换脸肯定效果不行,但是如果你想用它来,在人脸上加上一些装饰,就能做得非常好,而且效果也会非常的不错。

另外一方面,如果 AI 没有完美的算法,那么人机协同,或者人在闭环,往往也有一些商业模式能够建立起来。一般的做法是:先人在闭环,再逐渐的 AI 化。

举个例子,我原来在新加坡的时候去评测过的一家叫 TRAX 的公司,这是一家以色列的公司,它所做的工作是识别货架上的商品,而且要识别到子类,同样是洗发水,它要知道洗发水的尺寸等等。


它的动机是什么呢?商场里面每年有大量的商品,由于样式太多,人工没有办法去实时监督商品数量,导致每年损失高达五百多亿美金;另外,货架上的商品怎么样摆放,也是有严格要求的,如何摆放才能让客户去购买的可能性最大。

这家公司通过摄像头,去自对识别货架上商品的量有多少,以及它的位置是什么样的。有一些供应商,为了能够得到这个数据是愿意付费的,因为他们会经常派人,去不同的超市商店里检查自家产品的摆放等等,这个工作人工的成本非常高,如果能把它自动化,一些公司肯定是非常愿意的。

但是目前物体识别的精度只有 96%,怎么办?这家公司就在印度和马来西亚,召集了一批实时调度人员,先用自动算法做分析,再用人工来进行修正,通过人机协同的方式,运行起来了这样的商业模式。随着数据收集越来越多,它的精度可以逐步的提升,人工校对的人数也会随之减少。

所以,人机协同也是解决人工智能算法不完美的一种很好的方法。

另外,现在大家都在想,还有没有新的元素,能够去推进 AI 技术往前走?我个人觉得,5G 和 AI 芯片应该是 AI 两个巨大的推动力。


首先,5G 的下载速度快,据说能达到一秒钟下载 1.7G 的数据;第二个特点是高接入量,5G 的设备的数量,可能是现在的几十倍,或者更多;另外很重要的一点是低时延。

有了这些特性之后,比如在 VR 领域,如果带宽提升了,那么用户的体验就会变得更好;此外,高接入量对 IOT 有非常大的帮助;至于低时延,对于 AI 和自动驾驶是非常有价值的,因为自动驾驶车辆的设备,以及车和车之间的连接都需要具备低时延的特点。5G 对于这些场景的落地有非常好的推动作用。

而 AI 芯片最大的好处是什么呢?如果 IOT 设备的计算全部靠云端的话,那么在时延和隐私性方面可能会不那么好,如果端上智能设备的算力足够,比如家里的摄像头,那么就可以把图像通过本地进行处理,不需要上传到云端。

如果把对于学术界、成熟的企业和初创企业的这些观察总结起来的话,大家可以看到,对 AI 不只是去讨论它的三要素,也不只是说 AI 要落地,而是说现在大家已经开始要关心 return or investment(投资与回报),AI 也真的开始回归商业的本质,跟之前的互联网、移动互联网时代一样,商业回报是大家最关心的问题。

以上是我过去大概一年多的时间里面的一些观察。

大安全下的人工智能

接下来,我跟大家分享一下,360 在过去一年里面,AI 的布局和进展是什么样的。

大安全与安全大脑

360 去年明确提出来一个“大安全”的概念。其核心思想是:安全已经不只是局限在网络空间里面的信息安全,攻击也不只发生在网络空间,由于智能的控制的发展,原本存在于网络空间的攻击已经对物理世界产生了危害。

所以,安全公司希望的是,给大家提供一种安全感,包括安全、安心、安康等多个维度。

在此基础之上,360 人工智能的布局主要分成两个部分。

现在 360 的业务布局叫“一体两翼”。“一体”是核心安全,就是传统的安全业务;“两翼”一个是 IOT 业务,一个是互联网业务,比如 360 的搜索引擎、浏览器、信息流等业务。

一方面,360 去年提出了 360 的安全大脑,希望用人工智能和大数据的技术,去打造分布式的智能安全器,其主要目的是防御网络的攻击;另外一方面,是基于 360 的人工智能的平台打造四个引擎,分别是运动引擎、交互引擎、视觉引擎和决策引擎。这四个引擎一个方面是支撑 IOT 业务所需要的智能分析能力,同时还可以支持互联网的业务,因为这里有一些比较难的问题,或者可以进一步提升的问题,希望能够通过决策引擎去支持。

安全大脑的提出,是因为攻防的严重的不对等。防御方面,我们对网络所有的可能性,所有的地方都要防范;但是进攻的话,只要找到一点漏洞,就能攻进去。那么在这个时候,就会产生攻防的严重的不对等。

比如说在安全领域,每年都会有一个事故数据泄露调查报告,他们发现:黑客要进行攻击的话,如果初步得手,则需要跟踪,开始有泄露,也需要跟踪,但是网络安全人员要发现这个数据泄露了,他需要有足够的时间去启动跟踪环节措施,这是一个非常漫长的过程。

从这里可以看得到:攻击很快,防守很慢,防守环节也很慢。与此同时,网络攻击也越来越自动化和智能化,防守能用 AI,攻击当然也能用 AI。这时候就意味着我们需要对安全的响应速度比以前更快,也就需要大量技术娴熟的网络安全人员。

但是事实上,中国的网络安全人员是严重的缺乏,所以 360 希望是把多年积累的网络安全能力,形成感知学习推理决策和预测的能力,希望能为有安全需求的场景提供一站式的服务。

首先这是一个人机协同的系统,为什么?因为 AI 再怎么强,很多的场景还是需要白帽子,而且很多时候,AI 的价值是协助白帽子发现其中的问题。同时,它也是一个开放的生态,360 的网络安全人员目前不能解决所有问题,我们希望接入第三方的能力和速度,让安全大脑变成一个分布式的协同作战的武器。

此外,要把这些能力开放给第三方,让它有能力去沉积一些和安全相关的国家和企业的项目。在 2018 年的上半年,360 的安全大脑,拦截的恶意的程序就有 396 亿次,拦截钓鱼攻击 200 多亿次,拦截垃圾短信 48 亿条,拦截骚扰电话接近 200 亿次。

半年的时间,可以看到它所涉及到的面和量都是非常巨大的。

四个 AI 引擎

下面主要来给大家分享四个 AI 的引擎。

第一个引擎叫 交互引擎。 以 360 儿童手表为例,小孩需要跟手表利用语音交互通话,后台就需要有一个用于交互的引擎,同时 360 今年刚发布的 AI 音箱也是通过这个交互引擎来提供人机交互的能力,这个引擎叫做 NXOS。

第二个引擎叫 运动引擎。 这个引擎主要是希望智能硬件能够自主和安全的运行,现在主要是在支持 360 的扫地机器人。

第三个 视觉引擎 算是 360 的强项,主要是希望对家庭还有小区的安防提供统一的解决方案。

第四个引擎叫 决策引擎,依靠的是 data intelligence(数据智能),希望用 360 积累的大数据对未来的趋势进行智能的判断,用来做大数据的风控和广告,还有信息流、短视频的智能的推荐。

总   结

最后做一个小的总结。

我觉得从学术界、成熟企业以及初创企业的观察来看,大家不再只是考虑 AI 长远的落地,更加关注 AI 的 ROI,也就是说,AI 正在回归它的商业本质了,这个是迟早的事情。

那么在实践的维度,360 在大安全的指导下,用 360 的安全大脑来支撑 360 的网络安全,用四大人工智能引擎去支撑 360 的 IOT 业务,和互联网业务。

同时我觉得因为三架马车获得了图灵奖,在接下来的两年,甚至更长的时间里面,跟 AI 相关的行业应该会继续具有强大的生命力,谢谢大家。

问答环节

雷鸣对于 GAN、强化学习和 BERT,你觉得未来会有一些什么样的突破,以及这个突破会带来什么样的一些商业机会呢?

颜水成:我觉得 GAN,应该对于图像和视频的生成,肯定会有很多的回应的点。打个比方,你在社交媒体里面想用一个头像,现在网上直接下载的图像很多都有版权的问题;或者你在进行文字创作的时候,肯定会希望有一些配图,如果你到网上去买,不一定买的到,同样如果直接下载,那么版权问题的风险是非常的大的。用自动生成的方式,可以让创作产生更大的价值,而且现在有个趋势,不只是图像,连视频也能生成,这样发展的空间就更大了。当然这是指好的一面。

不好的一面就是,通过自动生成可以生成任何人,所以可能将来在网络上看到的新闻图片有些是自动生成的,这样反而会带来一些混乱。从安全的角度来说,利用 AI 判断到底哪些图片是真实的,哪些是虚假的,由此引发的相关研究也是很有前景的。

至于 BERT,我个人是非常看好它的前景,但是它的训练代价太大,最近有很多团队在用 BERT 刷榜,但如果你仔细去看会发现,刷榜的人都没有对 BERT 重新训练,都是用之前训练好的模型;当然也有一些团队在探索,有什么办法能够在真正的业务里面用上这个模型,还需要一些时间,但前景我非常的看好。

而强化学习可能前景就更不清晰了,我们看到了它确实是解决很多的问题,比如用来做模型的生成,像 GAN 这样的模型也在广泛的使用。如果公司是用它来瞄准长期的收益,这个东西可能会是很好的,但我觉得有如果公司比较愿意保障当前的收益,可能就没有办法立刻看到它的价值。

雷鸣有一个观点认为,深度学习的发展跟算力是捆绑的,随着算力的提升,很多问题都解决了,如果没有算力大幅度的提升,很多问题仅靠调整模型可能是解决不了的,对于这个观点你是怎么看的?AI 的未来真的就是暴力求解吗?

颜水成:我的个人感觉当前确实是比较依靠算力和有效的数据,比如说,图像和语音的问题都解决的不错了,但为什么 NLP 问题没能解决的特别好?我们当时有一些探讨:

可以把这些问题看成不同的数据空间,比如语音更多的是一维的空间,很容易就能够全覆盖到;而图像的数据空间相对语音来说会更大一些,随着社交媒体的丰富,像 ImageNet 这样的数据集也越来越多,图像的数据空间也开始逐渐变得更加充分了;但是 NLP 领域,就好比要把所有的词汇全部考虑进去,包括排列组合等等,它所拥有的空间比图像空间更大,因此可能需要的样本更多,如果再把多轮对话、人机交互等等问题考虑到的话,数据空间就更大了。

现当前的状况,几乎没有这么大的数据能把整个 NLP 空间的话有效的覆盖,这也是为什么现在人机交互的过程中,机器仍然很笨的一个主要原因。假设将来收到越来越多的日常高频的人机交互数据,你或许会发现机器人变得越来越智能。也许到将来的某个时间点,平常我们能见到的一些交互,就都不成问题了。

那么要处理这些东西,首先算力要足够。大家也知道之前 OpenAI 最新开源的模型 GPT 2.0 已经可以自己生成文章,这也是靠海量的数据和大量的计算资源堆出来的结果。

也许随着数据的增加,和计算能力的增强,解决 NLP 问题会比以前解决的更好。但是我是觉得,可能还会有差别,至少现在与智能音箱对话的人机交互方式,跟两个人类交流的方式还是差别很远的,所以至少在这个维度,应该是暂时没有办法让这个机器达到一个与人类接近的地步。

雷鸣:现在也出现一种叫多模态融合的方向,要理解视频内容,还要跟自然语言有关,前段时间微软也推出一个在图片上,通过语言去寻找某个东西的模型,对于这个方向你是怎么看的?

颜水成:我是比较悲观的。大家都在讲通用智能,我也有朋友是做这个方向的,比如按照某个方式去让智能体去接触外部环境进行学习,虽然能够从理论上证明,最后会具备强人工智能的能力,但是我觉得还是有些弱。这类实验也非常简单,有点像一个非常原始的游戏,去模拟这个过程,所以我个人觉得达到强人工智能的时间还是有些漫长。

而多模态融合现在也没有看到特别的好的方法,之前也有一些研究想要弄明白,人类大脑的视觉和听觉到底是如何协同工作的,但是到 2017 年也基本上没有任何实时性的进展。

当时在多媒体领域,有一个很好的梦想是希望能把图像、语音和文字,三个模态的信息能融合在一起去做一些事情,但是,如果去看这些论文,会发现其实它的融合机制还是比较简单的,而中间是怎样交错,并影响到最后的结果,我觉得还缺少一层比较好的机制,现在的多模态,做得还是很简单。至少从我自己有限的研究里看,多模态发展需要时间还特别长。

雷鸣:你觉得在视觉上,未来有哪些产业还会落地或者发展?

颜水成: 第一,我觉得教育还是一个比较重要的方向。现在的教育资源确实不够,要么把老师叫到你这边来,要么把孩子送到补习的地方去,可是有个现实问题,路上交通的时间成本太高了。我是觉得从视觉角度来说,通过基于视觉的交互,可以完成比如作业的批改,或者是在学习过程中,利用视觉技术分析孩子当前学习的状态等等。

另外由于 5G 的出现,一定会有新的内容产生出来,用视觉的方法去帮助用户产生适合在 5G 形态上的内容,肯定会催生很多新的公司。当然不仅仅是我们现在见到的短视频产品,可能会是别的视频产品,这块是视觉比较强的地方。

雷鸣:你对自动驾驶是怎么看待的,是偏乐观一点的观点,还是偏悲观的?

颜水: 我有一个观点是,希望做任何事情,经常有阶段性产品出来。但是自动驾驶的话感觉,在我看来是比较难有阶段性产品出现。因为我是从学术界来到工业界,所以我内心还是希望比较快速能看到一些有效的项目出现。另外,自动驾驶的周期比我们想象的要长,今年很明显,大家开始比较少的去谈一些 L4 或者 L5 的产品,开始想要在一些受限场景下尝试产品的落地了。但是我个人还是觉得这个方向是非常这个值得投入,也是未来应该关注的一个方向,也许需要更多的年轻人做这个事情。

下期预告

4 月 17 日 周三晚 18:40,北京大学“人工智能前沿与产业趋势”第八讲,将由好未来 AI 业务负责人杨松帆为大家授课。

感兴趣的小伙伴可以添加 AI 前线编辑微信:caifangfang842852,备注“北大听课 + 公司名称 + 职位 or 学校 + 专业”,通过后可进入课程活动群,第一时间获取直播链接、视频回放、课程内容整理、北大 AI 公开课系列课程信息,以及与其他小伙伴互动交流。祝大家听课愉快~

学习资料

点击“阅读原文”,即可观看本期公开课视频。

在 AI 前线微信公众号(ID:ai-front)后台回复关键词“北大 AI 公开课”,可获取往期课程文字材料 + 视频回顾等学习资料。

你也「在看」吗?👇

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存