查看原文
其他

贾扬清:为什么说数据智能和云原生之间是“天作之合”?


整理 | 夕颜
出品 | AI科技大本营(ID:rgznai100)


从工业革命到互联网时代,探路者涌入新兴领域所进行的许多伟大行动,驱动着这世界从生产力到科学技术地野蛮生长。在数据领域,从2005年大数据前身Hadoop项目的诞生到现在才不过短短14个年头。14年间,大数据正在不断改变商业规则。企业对数据的应用也从有数据、用数据,逐渐走向数据智能。


现如今,谁能有效地应用数据,谁就能够把握住数据智能时代的机遇。但对于多数企业来说,数据的采、建、管、用每一个环节都阻碍重重,如企业缺少体系化的数据认知,数据中台建设成本高,数据孤岛造成信息壁垒,跨服务商合作低效等,企业要实现数据智能还存在较高门槛。


如何能快速、成体系地应用数据?如何低成本搭建数据中台?如何有效发挥数据价值从而驱动业务增长?企业的数据化问题如何借助云的优势来解?11月19日,全域数据智能服务商友盟+在2019 UBDC全域大数据峰会上,与40余位行业专家,3000余位观众共话云端之上的数据应用,为企业实现数据智能找到了新的解法。

 

在主论坛上,在题为《云原生是数据智能的必然》的演讲中,自称“搞技术”的阿里巴巴集团副总裁、阿里云智能计算平台事业部总裁贾扬清从技术的角度分析了技术智能和云之间“天作之合”的关系。

 

他回忆到在硅谷时一位投资人的一句话:“如果有一天你能够让技术落地,并产生社会影响,你应该做一件事情,把技术忘掉,去关注用户场景,关注产业”。但他认为,今天的他没能完全忘掉技术,这从他今天的装束上就可以看出来,就像用技术的底座来支持上面的产业和业务。

 

以下为贾扬清演讲精华,AI科技大本营(ID:rgznai100)整理:

 

我自己是从人工智能的背景出发的,前面几年也一直都在关注人工智能这个很热的概念应该如何落地。从历史来讲,人工智能是一个相对古老的概念。几乎与计算机历史一样悠久。图灵在1950年提出图灵测试概念时,希望做的事情或希望测试的是,如何让计算机能够实现像人一样感知、归纳、分析和决策。


那么多年过来了,今天我们发现人工智能在各个领域已经有非常深的应用。比如政务、城市、交通、气象、工业、农业。这是最近几年才发生的,我们往回看,人工智能在20、30年前已经有很多点状应用。


现在,一台佳能或者尼康相机中有一个功能叫做人脸的自动识别跟对焦,这是人工智能向大家提供的一个能力。


IBM在20年前曾有一个叫做VR WAS的技术,研究如何通过语音识别进行输入,这也是人工智能的能力。但是,当年这些人工智能能力都是点状的,比如有一个Feature能够解决单个问题,但今天,我们考虑到金融智能、智慧法院、智能遥感等一系列应用时,已经有了系统性的、完整的解决方案。


我认为这其中一个非常重要的原因,是我们今天越来越多地使用到了云的技术,也许并不一定在云上,但用到了云的系统化技术,来解决从数据到分析、到决策的整个过程,这也是为什么我自己对于云技术非常热情的一个原因。

说到云,如今阿里云最大的用户是谁?大家可能会想到外部的创业公司等,但其实阿里云最大的用户是阿里巴巴自己。今年“双11”刚刚过去,对于我自己来说,今年加入阿里巴巴我经历了两个“第一次”。


我第一次作为一个客户参加了“双11”的活动,当然我自己只花了40块钱,我组里对我很生气,说你怎么能够花那么一点钱呢?


另外,我作为一个平台提供商,或者平台技术的提供方,“第一次”参加了阿里巴巴“双11”的活动,今年阿里巴巴“第一次”100%把自己的核心系统搬到云上,来支持“双11”的业务。


我想跟大家分享一下我们今天所看到,阿里巴巴在云上的业务,以及我从中看到的一些趋势。我把这些趋势归结为三点:


一、实时化。

二、规模化。

三、智能化。


实时化大家可能比较有体感,在阿里巴巴“双11”活动时,大家会看到我们播报一小时、;两小时的销售额,到24点钟声敲响时,今年的销售额达到2684亿。

这背后是一个实时的、顺时进行统计的系统,我们把它叫做Flink。这个系统做一个什么事情呢?以前我们做大数据时,更多地是把数据沉淀到数据库和多种数据源当中,然后再从数据库当中归纳或统计出数据如何分布,以及数字是多少。


但今天我们做这些计算、统计时,完全是通过直接把交易数量沉淀到这样的流式系统当中,而并不需要进行离线计算,才能够达到这样的效果。


从“双11”的结果来看今年的流式计算体量,峰值时增加了约1倍以上,这是今天我们在云上所提供的能力。



大家可能会问,每年都会播报这个数字,今年有什么区别吗?我想从规模化角度讲一个之前可能没有讲过的故事。“每年的双11”销售额都比日常高出很多,销售结束之后,我们要做一个结算(离线结算),计算商家收到的钱,银行应收的钱等。


以前怎么样来解决这个问题呢?因为“双11”体量巨大,我们算得比平时慢一点。比如平时8点钟算完,“双11”可能10点钟算完,这很正常。


今年“双11”十一年以来第一次,“双11”数据算得与平时一样快。平时我们要8点钟算完,今年“双11”也是8点钟就算完了。这是我们在阿里巴巴这样一个体量上能够感受到的,通过云技术所产生的红利,规模化在阿里巴巴的弹性需求上也能够体现出非常重要的作用。


当然,我们说实时化与规模化是两个非常自然的需求,今天还有一个非常重要的方向是智能化。智能化能够解决什么问题呢?我们在考虑智能化时,发现有两个能够解决的问题:


问题1:帮我们更好地解决现有的问题。

问题2:创造新的场景。


在阿里巴巴的环境中,我们发现很重要的一个场景是如何通过云助手环境为用户提供更好的客户体验。


比如在实际测试中,菜鸟语音助手与客户的交互场景中,客户一般会比较懵,大家经常会改主意,然后会掉线。需求会比较多。


这个技术背后不仅有语音识别和规划系统,还要与物流,业务大的场景结合起来,需要通过非常多的数据打通,才能够实现最后端到端的结果。

智能化应用并不一定单纯解决现有人工所无法解决的问题,有时我们还能通过智能化的方法创造一些新的场景。


回想一下,20年前上一个购物网站你看到是什么样的内容?基本上是千人一面,就像走进一家百货公司一样,所有人看到的东西是一样的。


今天有一个概念非常深入人心——千人千面,每个人在上淘宝时所看到的图片、商品是不一样的。但还有一个问题,千人千面只解决了推荐问题,我喜欢什么样的商品,我的朋友喜欢什么样的商品。但是,当我们看见同一个商品的时候,内容是一样的。我今天看见一个鞋子,跟我朋友看见一个鞋子,展示的内容是一样的。



我们可以通过智能化的视频理解、视频生成+用户的兴趣,今天我们可以通过视频的人工智能方法是动态的展示,对于任何一个客户来说,所看到的不光是我们向他推荐的商品,而且是我们向他合成的、展示和他个性化结合起来的内容。


这些环境给客户带来了非常有意思的新体验,你有可能会觉得,这个有点虚,到底有没有实际的作用?“双11”前面这一轮时间当中,我们的系统累计分析了2.5亿个视频,所能够实现的效果,平均每个客户会花约2分钟时间观看我们自动生成的视频,这是我们从传统千人千面推荐再往前一步,通过智能化方法来给大家提供智能化内容生成和内容体验。


这是今天大数据和人工智能的方法,能够向大家提供的实时化、规模化、智能化三个大方向。


这背后,我们所看到的是今天数据对我们来说非常重要。如今,对于一家公司来说,数据可能是它的核心资产。在大量数据的基础上,我们通过实时计算、机器学习等方法,利用云上强劲的算力,提供不同的用户体验和更好的业务价值。


从数据的体量来说,在阿里巴巴这样的体量上,图片识别、语音识别、个性化推荐都会涉及到数量巨大的数据处理和数据存储、数据分析的需求,这是今天我们云上所提供的价值。


从业务的角度来说,数据与智能、业务有越来越多的连接。这样的连接让我们开始考虑技术架构应该如何演进。如果在10年、15年,大家考虑大数据的概念时可能会想起一些今天耳熟能详的词汇,比如Hadoop、MapReduce,当时通过离线的方式来处理大量的数据,在每天的Scale上来分析数据。

当时,数据处理平台也相对比较简单。只有两部分:


  1. 如何来做离线计算。阿里巴巴有一个自己的系统ODPS解决这个问题,上面有一个很薄的开发者的平台,让大家能够做任务调度、任务纂写等,非常简单的一个环境。今天,数据开始逐渐变得实时化、智能化之后,系统也在不断演进。底层的引擎上开始有离线计算、在线计算,开始有交互式分析,开发者平台开始逐渐越来越多地考虑到数据集成和数据服务等一系列需求。

  2. 我们在云栖大会上推出一个非常有意思的新架构,发现在底层引擎上,已经有了全面开花的环境,从传统的离线到在线,到交互式分析,到图计算、人工智能计算等这一系列引擎,以及上面开发者所提供的更加复杂的数据综合治理能力。


如果数据是我们的核心资产,显然我们应该思考如何做这两点:


第一,保护资产,做数据安全。

第二,了解到底有什么样的数据,做数据资产管理和安全,以及如何在不同的部门之间分享数据红利,即数据分享的问题。


当然,数据最后到应用的过程中,我们还需要不断考虑从这些数据中挖掘出来的算法、方法,质量等问题,以及是在使用数据中的一些噪声,还是在使用数据中的一些insights。


今天,阿里巴巴的数据计算引擎和数据开发平台在支撑着很多业务相关的平台。


不仅是大数据,人工智能也开始逐渐变得非常重要,阿里巴巴在业界第一个提出了两个平台(大数据平台、AI平台)相结合的概念。


大家说到数据科学家时,今天可能会听到这样一句话:数据科学家越来越多地开始学习Python。如果我们往回推10年、15年,当时的数据科学家可能会用一些统计的软件(Excel、SaaS、SPSS)。有一个很有意思的问题,今天为什么大家开始用Python,难道以前的那些工具不够用了吗?Python是一个表象,我们发现今天随着人工智能的算法不断进步,所有的开发者们,都已经开始不由自主考虑到这样一个问题。


利用已有打包好的一些算法已经不够了,我们要从数据中挖掘更深的价值,必须要更加沉浸到一线算法开发、算法迭代当中去。今天,每一个数据科学家,每一个开发者,多多少少都会用到第一线的人工智能算法研发的场景。


我们今天看见大数据的平台,以前基于RDD平台,现在的AI基于Python,非常深刻的建模平台之间是有区分度的。所以,在AI方面,阿里巴巴会开始建立一系列让大家做模型迭代、模型训练和最终部署的一套工具。


归纳起来,阿里巴巴云上客户的需求主要分为两种方向:


1、数字产业化。

2、产业数字化。


我想举两个客户的例子来说明数字产业化跟产业数字化分别是怎样的一个关系。


例子1:中青看点,是一个拥有着千万级用户的新闻聚合的网站。中青看点这样的企业非常典型的特征,本身架构在大数据的基础上,对于数据的把握、数据的理解,或者对于数据重要性的认识非常深刻。


在这样的环境中,他们需要的是如何从数据中挖掘价值,而对于新闻聚合或者视频、电商场景来说,最重要的是推荐。


推荐说起来非常简单,就是如何把用户和商品之间的相似程度、用户兴趣建模出来。


这件事情两个工程师就可以完成。但如果继续深挖下去,有非常多细节的问题需要解决。比如冷启动问题,应该向新用户推什么样的内容,这时通过“探索”,我们向用户推送一些通用的可能会感兴趣的内容。在这个探索过程中,我们会逐渐开始对这个用户有更深的理解。


经过探索之后,我们可以优化用户体验,这整个过程涉及的不仅是单纯的推荐系统算法,或写一篇Paper那么简单。今天,我们需要有一个系统化的能力来进行实验管理,用户信息管理,最后推出一个完整的系统。


今天,我们通过云上的技术和一些方法论的迭代,可以让中青看点得到明显的CTR提升,最终用户越来越喜欢这个平台,在这个平台上花更多时间,了解他所感兴趣的信息。这是很多企业所需要的能力,我们做的是如何把数字化的想法,通过人工智能的能力,更加深刻地与产业实现和需求相结合。


另外,一个更加有潜力的方向是产业的数字化。以大润发为例。大润发是一个超市,今天有很多的传统产业可以非常强烈地感受到或获得数字化的红利。对于大润发这样的企业来说,需要的是如何在线下渠道把人、货、场结合在一起,以及如何在线上渠道通过电商(饿了么)和用户建立更深的连接。



在这样一个环境当中,需要把数据打通,包括线上数据、线下数据、用户数据、库存数据、物流数据,今天传统企业在数字化转型时,会产生这样一个想法:转不起,太贵。


这是一个现实存在的问题。我自己也经常反思,有时没有感觉到数字化转型的痛苦,的确,我们发现很多传统企业术业有专攻,他们本身并不是要构建一个机房,构建一套云服务,转型的确面临现实的困难。这是一个很自然的问题,但同时也是一个很好解的问题。


如果我们想一下,想做一个智能办公系统应该怎么办?我们不会自己从零开始写一套Office,因为已经有一个非常完整的套件在。现在已经有很多工具可以让大家更简单地构建数字化转型的基础,就像20年前,每一个公司或每一个事业单位必备两样东西:


(1)水塔。因为当年自来水系统不是太好,所以经常会停水。

(2)发电机。因为当年供电不是太好需要有一个自己的发电机。


在那个年代,这些基础设施(水、电)很多企业和事业单位需要自己解决,今天来说这是一件很容易的事儿,接上自来水公司、国家电网就可以了。


今天,IT的技术、IT的底座也像是当年的水和电一样本身唾手可得,在云上可以构建起来的能力。我们在服务大量客户时,发现大家的需求有一个共性,他们有大量不同的数据源,通过不同的数据采集,无论是IoT,还是线上的环境,把数据沉淀到不同的数据源中,所需要构建的是一个数据开发治理的流程,以及更加高效的数据存储。


在大数据和人工智能场景当中,我们利用这些数据做大规模离线计算、交互式分析、流式计算,通过机器学习的方法做数据的感知、分析、归纳和决策,最后把这些智能化的方法再输出到智能决策系统中,或者为企业管理人员展示更加结构化,更加有深度数据分析的结果,方便他们做更详细的业务决策。


说到这点,我还是要泼一盆冷水,在软件工程中我们有这样一个概念叫没有银弹。今天是否上云就解决问题了?从我一个做云上大数据和人工智能平台研究人员和开发人员的角度来说,我觉得不够,为什么呢?还是刚才那句话,术业有专攻。


要依赖一个计算平台来解决所有的业务问题是不够的,我们还需要有更好的方法论,需要一系列的学习,不断迭代,不断开发,不断发展的流程才能够把最终的结果做好。


今天,我和大家探讨了工具和方法论这两点内容,工具是基础,是让数字化转型、产业数字化结合变得更加容易的基础。通过工具和方法论的结合,我相信整个产业和社会的数字化转型和数字智能的落地将做得越来越好。我还是非常相信,云原生的环境是实现数据智能的必经之路,也是对数据智能加速发展起到关键作用的媒介。


(*本文为AI科技大本营整理文章,转载请微信联系 1092722531)



精彩推荐




开幕倒计时7天|2019 中国大数据技术大会(BDTC)即将震撼来袭!豪华主席阵容及百位技术专家齐聚,十余场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读。6.6 折票限时特惠(立减1400元)倒计时 3 天,学生票仅 599 元!



推荐阅读


    你点的每个“在看”,我都认真当成了AI

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存