其他

【华为邵洋】华为终端人工智能战略:端侧智能+云端智能,2019开启下一个时代

2017-11-17 AIWORLD2017 新智元


中国人工智能资讯智库社交主平台新智元主办的 AI WORLD 2017 世界人工智能大会11月8日在北京国家会议中心举行,大会以“AI 新万象,中国智能+”为主题,上百位AI领袖作了覆盖技术、学术和产业最前沿的报告和讨论,2000多名业内人士参会。新智元创始人兼CEO杨静在会上发布全球首个AI专家互动资讯平台“新智元V享圈”。


全程回顾新智元AI World 2017世界人工智能大会盛况:


新华网图文回顾
http://www.xinhuanet.com/money/jrzb20171108/index.htm

爱奇艺
上午:http://www.iqiyi.com/v_19rrdp002w.html

下午:http://www.iqiyi.com/v_19rrdozo4c.html

阿里云云栖社区
 https://yq.aliyun.com/webinar/play/316?spm=5176.8067841.wnnow.14.ZrBcrm










  新智元 · AI WORLD 2017  

演讲嘉宾:邵洋


【新智元导读】新智元AI WORLD2017 世界人工智能大会上,华为消费者业务首席战略官邵洋带来 《Mobile AI,重新定义极致用户体验》的分享。他提到,下一代手机非常关键的一点就是交互方式一定会发生本质性的变化。他介绍了华为在人工智能上的一些基本思考:如何让感知做得更准确,如何让认知做得更加符合用户的需要,如何在安全上考虑建立一套数据处理架构和存储架构,如何在处理能力上达到强有力和持续等等。


https://v.qq.com/txp/iframe/player.html?vid=f0502284pl3&width=500&height=375&auto=0

新智元AI World 2017世界人工智能大会开场视频


邵洋:大家下午好!上午在圆桌中我分享了一些华为对于 AI 的看法,感谢AI WORLD 2017世界人工智能大会组委会给我这个机会,让我可以完整地分享华为在AI时代到来的时候,对产业,对未来可能发生的重大变化的看法。


今天我讲的题目叫《Mobile AI,重新定义极致用户体验》,现在的用户体验将会在未来的一段时间发生本质的变化,而AI是这一本质变化最大的驱动力。它将怎么驱动这个产业发生变化,在这个过程又会面临什么样的挑战和机会,这是我今天要讲的。


手机行业剧变:12年一周期,每一次都是颠覆性的


华为是手机行业的新兵,我们大概 2011年开始进军消费者业务,实际上就是终端业务。这个行业前前后后发展了三四十年,把这三四十年的历史串起来,我们发现这个历史并不是那么无序,反而是很有意思、很有规律的,基本上以十二年为一个周期,这个行业就会发生一次剧变,每次剧变几乎都是颠覆式的,不仅技术上颠覆、体验上颠覆,而且厂家上也基本上全被颠覆了。


1983年摩托罗拉第一次发明了大哥大,1995年诺基亚发明了数字机,也就是从九十年代开始我们中国人开始用的第一代手机。2007年苹果发明了智能手机,即第一代的iPhone,今年是十周年了,我觉得这是一个伟大的过程。按照这个规律发展下去,2019年或者2020年,也就是不远的两到三年内,下一代手机就会来临,当这个手机真的来了,它会像过去的每一次那样完全改变手机的历史吗?我觉得这是一个非常有意思的问题。



当研究为什么手机在这种十二年为周期的驱动下会发生本质变化的时候,我们看到两个最重要的驱动力:图片上纵轴的自然交互和横轴的信息服务。我们先说纵轴,如果我们看过去这几代手机发生了什么变化?最早手机键盘只有数字0到9,是最简单的键盘,接着发展出了更复杂的键盘,能够有输入法,能够有各种各样的信息输入。再接下来就变成了我们现在熟悉的大屏加触控,每一代在交互方式上都发生了巨大的变化,应该说现在的手机看起来跟十年前苹果发布第一代手机,它的交互方式没有发生本质的变化,但是跟更久之前的交互方式已经有了本质性变化。我们认为下一代手机非常关键的点就是交互方式一定会发生本质性的变化,这是我们的第一个基本假设。


我们跟很多业内的前辈们请教,苹果当年发布第一代手机的时候到底做了什么?他们说如果你看第一代苹果手机其实很普通,就四五个应用,没什么大不了的。但是苹果做对了一件事,它把触摸做好了。我觉得这个不得不说乔布斯非常伟大,他在一个关键点上改变了手机,这个点打开了一扇门。我们看到手机的交互方式一定会往更加自然化、多元化、便捷化的方向发展,语音也好、机器视觉也好、AR/VR也好,这些方向都可能推动手机发生本质的变化


第二个,世界在改变,现实世界日新月异,但是它是在以一个线性的速度发展,比如多一栋楼或多一个房子,但是数字世界是在以指数的方式发展,每天有数以亿计的照片、视频、音乐各种各样的内容出现,它不仅构建了现实世界比较基本的镜像,而且自己在内部繁衍壮大。当这个圈越来越大,以指数级放大的时候,我们怎么进入这个世界,怎么管理这个世界?我们需要更好的信息服务方式,这是第二个驱动力,与AI有很强的关系。



讲 AI 我们一般讲智慧,什么叫智慧?按照剑桥的说法就是学习、理解、作出判断,选择的能力。这句话比较干,我们用比较具像化的东西来说,在这个地球上没有比人更智慧的生物,用人做一个范本可能是最简单的。人的智慧分成什么样子?分为两种:第一种智慧,这张照片大家很熟悉:贝爷是挑战荒野的主演,他非常好地代表了当人只是一个个体的时候,他具有什么样的智慧,他的智慧能够帮助他干什么。当人无依无靠只是一个人的时候,我们可以看到这个人他有他的知识,他能够感知他的环境,他能够制造工具,满足他每一天走出荒野的目标,所以这种个体智慧能重构环境、感知环境、判断机会,进行本地的计算,这是非常强大的一种智慧能力。



但是人不仅如此,人还有一种更重要的智慧叫群体智慧。这是一辆F1赛车,F1赛车如果要换四个轮子,再加满一箱油,大概要花多长时间呢?如果按照比较快的速度大概4.6秒,4.6秒就可以完成换四个轮胎,加一箱油的工作,这种工作如何完成的呢?它是由精密的团队协作,这不是一个人可以完成的。所以人和人之间如何分享、沟通、协作,如何建立起知识库,如何让更好的效率达成,我觉得这是另外一种智慧,我们把它叫作群体智慧。



信息社会我们看到的就是这样一种过程:我们需要个体的智慧,也需要群体的智慧,个体的智慧就像每个人手上的终端、手机一样,它就具备了基本的智慧能力,但是当我们无数的终端,以及知识在云端汇集的时候,它又具备了云端的群体智慧。我们把这个都是叫作 On-device AI(端侧智能)和Cloud AI(云侧智能),二者的结合叫Mobile AI。这是我们认为下一阶段真正能够改变世界的一种体验方式。


华为终端人工智能战略:端侧智能+云端智能,四大方向



Mobile AI 要具备什么要素呢?我们拿人体做一个例子,我们认为它有四个基本的要素要满足,第一个就是感知的能力。我们叫“眼耳鼻舌身意,色身香味触法”,这就是我们的感知能力,我们的五官。第二个要有认知的能力,我看到不代表我看懂,我看懂不代表我真正看懂,在这样一个认知的过程中它是不断地递进。第三个更加接近于人体的免疫系统,我们每天需要养料补充我们的身体,但是我们不希望这里的毒素伤害我们的身体,我们希望数据帮我们提高效率,享受更好的生活,但是我们不希望这些数据给我们造成麻烦,当大家都在谈数据的时候,到底什么样的数据是安全的,这是我们另外要思考的问题。第四个是动力,我们最重要的是心脏,它能够支撑我们一辈子的所需。到底什么样的动力系统是AI时代所需要的呢?上午也问了一些问题,说我们怎么看待人工智能芯片,我们认为未来是多种芯片协同工作,对于华为来说我们叫作五指战略,有CPU、GPU、NPU、MODEM、DSP,一系列的功能在不同的处理器下应对环境,达成的计算效果可能是最好的



人工智能时代,这些要素的挑战是什么?我们先来看感知,因为我们看到了太多的云,云很重要,但是其实比云更基本的一点是感知,不管我们这个社会多么发达,我们在座的人如果是盲人,如果是听觉障碍者,我们很难与这个社会沟通。其实不要说我们是盲人了,如果我们是个文盲,我们可能在这个社会上都很难获取知识,而在端侧就有大量的东西代替了我们眼睛、耳朵这些基本的功能,比如摄像头,我们经常说要图象识别,图象识别是什么呢?我们手机在常开的情况下,一天大概有超过200G的流量发生,我们把这200G的流量都送到云端处理吗?云端有这么大的计算量,或者我们有那么多的带宽去送吗?我们的声音一天如果收集下来大概有20个GB,我们现在一个月的流量可能也没有20G 呢。我们的传感器不在于流量,而在于它多元化和实时化,当我们感知到一个东西的时候立刻就要反应,我怎么能保证这种及时、无处不在的感知呢?所以怎么能让这种端侧的能力越来越强,这是我们在人工智能时代需要思考的


刚才我听伯克利的同事们介绍,如何让我们的机体更加有效,这也是非常强的端侧能力,这是非常对的。摄像头要看得更全,为什么苹果做Face ID要做三万个点,而不是一个简单的平面图,因为它要看到的是深度,要看你情绪、表情的变化、五官的位移。声音,我们要听得更清、听得更远,当你离很远的时候也能听得懂,旁边有很多人在说话的时候也不影响我跟你交流,当有十个人在说话的时候,你认得我的声音,这也是端侧能力需要去做的。传感器也是一样的道理。



当端侧成为一个健康的机体的时候,我们来谈云侧就更加有基础了。云是什么东西呢?云实际上是要在端侧的信息和云侧的信息结合的情况下,它能够产生出很大的价值。比如说我知道你的位置,我知道你的状态,比如是不是在车里,我知道你的一些基本环境情况,我知道你的目的地,这个时候再知道交通的状况,再知道你目的地周围停车库的状况,这个时候它来给你提供协助,它提供的就是非常完整的协助,会让你非常舒服,知道你在哪儿,知道你是谁,知道你想干什么。如果我到这边来,我住在这个酒店,如果我一次住就算了,我多次住这个酒店,是不是代表我喜欢这个酒店,我多次吃这个菜的时候是代表我喜欢这个菜,当我们对端侧的用户画像和云侧的用户画像结合的时候,我们可以为这个人提供更好的服务,这是认知层的东西。



第三,我们讲安全层的东西。安全层的东西,现在我们经常说一切的信息都要共享,一切的信息都要云化,我个人认为其实这是一个非常需要探讨的题目,有很多信息我们真的能够随便的云化吗?比如说指纹,我们的指纹是人的生理特征,这样的生理特征如果广泛地被云化,任何一个人都能获取你的指纹信息,那你会不会一辈子都生活在一种麻烦之中呢?你的瞳纹,你的脸部,你的声纹,各种各样的信息,这样的信息是不是适合大规模的云化,这也是我们在思考的。从华为的角度来说,我们把这种涉及到体征,涉及到生理的这些信息芯片化,连端侧都不做,只在芯片中保存,防止被误读,即使应用也不能读到它,只能读到它加密后的信息。


其次就是私人数据,私人数据在中国近几年发生了很大的变化,中国大量的网盘被关闭了,一方面是存在公共安全的问题,一方面也存在个人信息的问题,发现个人信息出现了一些损失。我们在座很多人都用云相册,包括我本人,但是在我们设置云相册的时候,我们往往还是会考虑一些相册不希望上云,比如说我们家里的亲属照片,我们可能不希望在云端过度地被分享,在这样的情况下,健康信息、照片信息,我们要以本地化为基础进行管理,然后进行一个受限的、加密后的上传。


再次就是真正可以被共享化的信息,我希望被别人知道的信息,这些信息我希望越来越多的人被人知道,所以这些信息可以通过云侧的管理进行大规模的共享。


这种芯片、端、云三级的安全共享机制,在未来需要不断地梳理。我之前看苹果做HealthKit的时候,我觉得它有一个做法做得很有意思,HealthKit做人体的体征信息的时候是不准上云的,我今天身体好不好,我的心脏怎么样,我的生理特征怎么样,是不能上云的,端侧可以看,但是云侧不能看。这种治理架构的问题,其实在国外有很多好的范例,现在国内其实到了一个比较关键的阶段,这个阶段定的好,会让我们在这条路上走得非常长远,而如果这个阶段出现了一些擦边球,很有可能大家在某一天会对AI产生一种恐惧,进而阻挠AI的应用。AI在给大家带来便捷的同时,不让大家丧失信任,这是非常关键的问题。在座有很多AI领域的专家,我们希望跟大家一起探讨,到底什么样的东西可以在保证信任的情况下也保证便捷。



第四就是强大持久的能力,这两句话是有点矛盾,一个叫强大,一个叫持久。强大是我要你做什么的时候你立刻就能做,而比如深度学习需要一层一层的计算,对计算的需求量是非常大的。华为现在做照相,不是说把光圈和焦点找好了,照一张相就可以了,它需要识别是什么样的场景,比如现在它识别就应该是室内、暗光的场景,然后识别对象,这些是人,这些是物,这些是灯光,一系列的这个过程当它识别出来以后,它做出来的照相进行的调校才能达到该压制的压制,该提升的提升,以合适的方式呈现。但是这样的一种运算如果我们把它压在普通的芯片上,核心问题不是它的计算能力不够,是它的能效比不够。比如我们用普通的CPU、GPU去照相也可以照出来,但是你的手机很快就会没电了。华为这次为什么会推出NPU,是因为它的能效比提高了50倍:处理刚才这样一层一层的算法时,它的能效比比原来的CPU提高了50倍,这样才使得手机体验不遭到破坏的同时,产生新的、更高的体验质量。


也就是在这种暴力运算的时候,怎么能让它该提速就能提起来。我们其实还面临另外一种情况,我们现在的手机跟未来的手机可能真的是不一样的,现在的手机摄像头你开的时候才开,你关的时候就不会再开了。但是当机器视觉出现的时候,摄像头可能会随时读取环境的状况,也可能读取你的表情,根据你的表情提供服务,它的摄像头很可能要持续地开关,它的麦克风可能要持续地开关,我们都说麦克风有一种基本的唤醒方式,比如华为叫你好小E,但是未来通过声纹的发展可能就要去掉“你好小E”,可能直接让他去做一些事它就能够反应,这个时候它的兼听量就跟过去不一样了。正常情况下我们原来是一个CPU处于关闭状态,通过一个协处理器把它唤醒,未来的协处理器能够满足这种大规模的传感器的唤醒吗?它就对芯片提出了另外一个要求,就是怎么持久,怎么让它在复杂的环境下,以非常低的电量保持对环境的感知,这是另外一个问题。


我们刚才介绍了我们在这里面的一些基本的思考点,如何让感知做得更准确,如何让认知做得更加符合你的需要,如何在安全上考虑建立一套数据处理架构和存储架构,如何在处理能力上达到强有力和持续。


Mobile AI 四大场景


当这些基本的事情做起来以后,我们就像累积木一样,我们会把大家的体验逐步累起来,大家的体验是什么样呢?有很多设想在手机上已经实现了,很多即将实现,我觉得这只是一个起点,我们看看通过这样的起点我们的生活会发生什么样的变化。



比如说早上起来,早上起来手机可以知道你是不是在家,而且手机也可以知道你基本的下一步的规划是什么,比如通过你的日历,它可以知道你的下一步行程。正常情况下是上班。作为这种情况人需要知道的是什么?人需要知道的是路况到底怎么样?比如我每天从家到华为公司有三条路,原则上我会选择一条高速公路,但是实际上我会发现那条高速公路很堵,这种情况下它需要实时判断我的出门状态,来实时给我推荐一条最佳路线的。有很多种方法,比如当我离开家里WIFI的时刻,也很可能是我离开家的时刻,这个时候给我推荐一个路程信息可能是最有效的,或者当感知出我在车上的时刻,也是我进入车的时刻,这个时候给我推荐可能更有效。因为越准确就越有效,比如我十分钟后上车,你现在给我推送,很可能是无效的,因为十分钟这个路况很可能已经堵起来了。在这种情况下如何智能的推荐,更好地服务于人,它需要大量的端侧和云侧的信息结合,这些方面就可以使得我们的出行变得更加便捷。



在北京我听说很多同志不敢开车,因为车的路程太长了,我觉得在各个地方都差不多,在深圳上班也需要四十分钟,这四十分钟如何打发是很重要的。有一些应用我喜欢看,有些信息我想读取,有些音乐我想听,这样的话如何通过全脱手实现业务交互?智能交互可以起到很大帮助。怎么在车内完成这一点,这又是我们的重点,这个重点说起来简单,实际上做起来非常难,它需要的是能够在高噪音的环境下准确地识别,然后能够穿透这些应用,从APP到API,真正地解开这些应用,在一个界面下完成所有的过程,而只要我需要用手去点它,那么我的整个体验就会受到影响。



第三,大家如果用Mate10可能会发现我们有一个本地翻译的功能,这个是为我们涉外人士准备的。比如我到了一个西班牙餐馆,我不认识西班牙文,我用我的本地翻译直接就可以翻译成中文,这样的翻译不需要网络,整个过程大概0.5秒就完成了,没有类似图片上传云的过程。为什么要这样做呢?因为有的时候大家并没有网络能力,更重要的是有很多人并不希望这个东西上云,如果这是我的商业资料,我也希望翻译,但不希望它上云,以往这个是做不到的。正因为有了NPU,现在本地翻译就可以做到了。


再说计算机视觉,手机大部分具备了耳朵和嘴巴能力,但实际上人很重要的东西是眼睛。眼睛对于大家的信息输入是超过80%,而且它的效率是非常高的。所以怎么开发出摄像头,比如这里是一家店,当我们看到这家店的时候,我们可能想知道这个店里有什么样的菜,我如果通过大众点评进入,看到里面的菜,甚至看到里面的优惠,这是可以做到的,但是这个过程比较慢。我能不能见到这家店的同时,结合我的地理信息,结合我对这个图片的识别,我就精准地识别出这个店,打通这个店相关的内容服务,我就知道它里面有什么菜,这就会成为一种新的体验模式,让眼睛开始出现。



运动健康,运动健康也是一个非常有意思的功能。其实很多东西越跟随你就越熟悉你,越熟悉你就越能帮助你。我是从深圳到北京来,我到北辰这么好的地方,也许我有运动的习惯,今天晚上我到哪里跑步就成了关键,我怎么在附近找到一个比较好的跑步路线,按照我的习惯,即使我在深圳我熟悉的情况下,如果我有跑步习惯,当然我比较懒,那我怎么能够根据我今天的身体状况来推荐我的跑量,这个也很重要,也许我今天很累了不适合做很剧烈的运动,也许我今天体质比较好,我可以多做一点运动。当这样结合后台服务,云端的服务加本地的状态,当这些开始出现的时候,我觉得对我们的健康质量会有更好的体验。



当我们睡在床上的时候,实际上很多传感器依然在工作,比如说手环,比如说各种各样的体征相关的设备。当它来监控我一晚上工作的时候,其实我是可以知道第二天我的身体状况的,如果我睡眠不太好,是不是应该跟上一些服务,这就是一扇门接一扇门地打开,我们把更多的信息整合起来,更多的画像画出来,对人的服务越来越贴心、周到,这种情况之下我们将会变成什么样的?



照相,其实我刚才介绍了很多,这个叫DXOMARK,这是非常权威,在业界几乎属于非常专业的照相,它在不同场景下可以照1500张照片,来检验每一个产品的照相能力。大家可以上网查一下,华为在这款照相里得到了一百分,满分。Pixel2得到了99分,iPhone 8PLUS得了96分,iPhone 8得到了93分。这是怎么产生的呢?其实有很多东西跟硬件的技术、算法是有关的,比如说我们的徕卡双摄,这次的改进很大程度上在于对于目标物体的识别,对于算法的优化,对于调校的优化,这样的东西产生了这样的效果。也欢迎大家体验一下华为手机,一定会让你照得有些惊喜。 


我们刚才举了一些场景,这些场景都是抛砖引玉,我们甚至不是很专业地描述这些场景,我觉得这是开发者真正在做的。我上午讲了一点,希望我们可以打造一个能够创造很多财富,能够分享给大家的平台。与此同时,我们也希望做到更加开放,能够解锁更多能力,能够让你在这个能力上提供更好服务的平台,我们希望将来能够跟各位产生越来越多的合作。



手机成为人类分身,需要全新的信息管理架构




当我们的体验越来越丰富的时候,我们发现我们的世界发生了一些变化。左边是我们现在的世界,我们人是在上方,人的下边是手机,它是我们的工具,人与现实世界的交往基本是通过我们自己来完成的,我们的眼睛看到大家,我们的声音传递给对方,而我跟数字世界的沟通,比如说我看到你但我不认识你,我可能会通过手机查询一下,我不认识这家餐馆,我通过点评来了解一下。所以通过人来与现实世界交互,通过手机来与数字世界交互,这就是我们现在的信息架构。但这种信息架构在人工智能情况下会被颠覆,一个是层次发生颠覆,也就是说手机会从下一层往上移,我觉得其实大家说智慧这件事情其实很有意思,就说明它已经不是原来的工具了,它已经开始享有一些跟人相对等的地位,变成一个分身,变成一个助理,所以它的架构提上来了。


第二,它多了两条线,第一条线是从智慧手机向现实世界,它可以直接获取现实世界的信息,感知现实世界,认知现实世界,能够看得懂这个环境,能够听得懂这个环境,这是以前没有发生过的事情。第二,手机以前更多的是被动响应,我想做什么,打开手机,打开一个APP,输入,我给你做到,而现在会主动产生推介,在你还没有做出强制性动作的时候,它就已经预判你的想法来提供一些服务,比如说导航、运动、美食,可能都是这样的。当信息的架构层次和信息流发生改变的时候,我们认为这将是一次非常本质性的改变,这种改变将会产生巨大的变化。



变成什么样呢?我觉得这个片子很有意思,叫《机器总动员》,里面有一个非常可爱的形象叫大白。大白可能就类似于我们未来所提供的服务:它首先在数据层进行整合,然后灌入各种各样的知识,上午海峰总讲的百度知识图谱,我认为非常很好。然后他有场景化、角色化,它在家是你的管家,在运动的时候是你的私教等等。最后它有自己的性格,它可能是个话唠,它可能很严肃。这种过程很有意思,而且在很快的时间就会发生。



每个公司都希望在这个过程中率先完成这一步,华为公司也是这样。我们每年的投入都非常大,今年超过一百多亿美金,过去十年是450亿,我们在普华永道的排名是第九,在欧盟的创新投入里排名第八,这都是前十中唯一的中国厂家。我们希望这些钱能够帮助我们这些梦想早日实现。


谢谢大家!





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存