数据猿专访 | 阿里数据经济研究中心秘书长潘永花:我们不会对外开放数据,但会输出大数据能力
阿里巴巴数据经济研究中心秘书长潘永花在接受数据猿采访时称,阿里巴巴现在是不会直接输出数据的,但会通过旗下阿里云平台输出大数据能力,现在,越来越多的传统行业,已逐渐开始利用阿里的大数据能力做升级转型了
阿里巴巴数据经济研究中心秘书长潘永花(右)
数据猿报道,在友盟+ 2016 UBDC全域大数据峰会上。数据猿作为现场独家图文直播与大数据专访媒体,有幸采访到了莅临会议现场的多位重量级嘉宾。
以下是数据猿记者张艳飞现场独家专访“阿里巴巴数据经济研究中心秘书长潘永花”的内容实录:
本文由“135编辑器”提供技术支持
数据猿记者:越来越多的人提到“全域大数据”的概念,您是怎么理解“全域”这个词的?
潘永花:其实“全域大数据”的核心还是要看以往的数据,行业中大部分的公司所拥有的数据要么是纯线上的、要么就是纯线下的,或是纯移动数据,很少有公司具备一定的实力能把这几块数据真正融合匹配到一起。
虽然,线上线下的数据融合,目前是所有人关注的重点,但真正能实现全域数据融合的企业还是相对比较有限。
我们作为个体来说,要完整刻画一个人的画像,必须要综合线上、线下以及移动端的数据才行。单单从移动端或者PC端数据描绘出的用户画像肯定是不完整存在一定局限性的。
数据猿记者:要打通各平台、渠道,融合线上、线下数据对技术的要求是非常大的,您认为这是目前阻碍“全域大数据”实现的最大障碍吗?
潘永花:我认为,对技术的挑战其实还是有限的,已经不是最关键的挑战了。反倒是当下的脏数据非常多,成各大公司很头疼的一件事。
脏数据让真正能发现价值的数据变得非常有限。就像北大刘德寰教授所说的“目前市场上高价值数据的密度其实非常低”,所以,数据清洗环节可能面临的挑战目前是最大的。
能把真正有价值的数据清洗出来,才会让最底层数据保持最高的干净度,在这样的数据基础上分析出来的结果才能够真正为用户服务,提升业务价值,我觉得目前数据清洗是最难的。
数据猿记者:数据清洗、脱敏后的价值输出也源于数据源的多维性与丰富性,阿里如何解决数据单一的问题?
潘永花:从阿里的角度来说,最大的优势肯定在于庞大的线上电商数据,所以,阿里去年和苏宁、银泰这样的线下实体企业合作,尝试补充线下数据的不足;还有,因为气象数据对商家备货、物流运输等影响会非常大,阿里也在和中国气象局等拥有气象数据的机构合作补充线下数据,这不但将会让阿里生态中的企业获益也会让阿里数据发挥最大价值。
举例来说:
一、如果能及时准确地知道两天以后具体哪些地方会下雨或下雪,虽然可能会让整体物流运输受到延误影响,但可以让物流公司提前准备预案,将预警作用最大化;
二、天气变化对农作物的影响会更大,直接会对农产品价格产生影响;
三、气候数据实时的预测掌握,也可以指导商家到底是应该多储备冬衣,还是要储备雨具,这方面的商业价值也会非常大,可以直接让阿里系商家受益。
通常,气象局利用气象数据所能发挥的价值很有限,充其量就是天气预报,但如果能真正有效融入到具体业务场景中,才能把气象数据的价值真正展现出来。如果气象数据再能跟其他跨界数据融合,那么,基于大数据的创新创业门槛也会大大降低。阿里云正在做这样的事情,同时,这也是目前业内很多公司正在努力的方向。
数据猿记者:以阿里目前拥有的数据量、大数据处理能力以及应用能力来说,阿里已经是一家综合性的大数据公司了,您觉得,现在是否就可以把阿里巴巴定位成一家大数据公司?
潘永花:可以,就像我们马总一直强调的,DT是未来,数据技术是未来一样。
关于这个问题,我可以主要从两个层面来说:
一方面,阿里本身确实是一家大数据公司,这毋庸置疑。很多阿里的业务也在从业务数据化向数据业务化转变,这个怎么理解呢?可能以往的业务是通过网上下单、支付、物流配送等环节产生数据积淀,但在未来,积累了庞大的数据之后是可以在这个基础上产生新的业务跟价值,这是阿里现在及以后一直要做的事情。比如像我们的蚂蚁微贷,就是基于电商、支付等数据对阿里线上商家提供贷款服务,这是一个非常典型的数据业务化场景。
另一个方面,阿里发展这么多年,也积累沉淀了很多技术能力,所以目前也在通过阿里云平台对外输出大数据能力。这些技术能力的输出除了有底层的计算、存储、云服务等之外,也在提供产品化的数据技术服务,包括分析型数据服务能力以及流计算处理能力的输出。
但这里需要再次强调的是,阿里并不直接输出数据,而是输出数据能力!比如说,我们通过阿里云帮助浙江省交通部做高速公路的拥堵预测,帮助贵阳交警开发识别套牌车的应用,也在利用阿里大数据的能力帮助海关开发、搭建相应的应用。越来越多的传统行业,已逐渐开始利用阿里的大数据能力做升级转型。
所以,阿里不仅仅是自己在用数据延伸数据,还在对外输出数据技术能力,这是阿里最重要的两块业务。
数据猿记者:您认为,进入大数据时代,传统行业目前面临的最紧迫的问题是什么?
潘永花:传统企业的类型有很多,也分层次,举例来说:
一、通常我会把金融、电信这样的行业定位为重度线下数据资产行业,而且他们的大数据能力也不弱,只是说以前的数据主要来自于内部数据,用内部数据支撑自己的业务发展以及内部决策。现在这些行业面临的最大问题在于,如何把外部数据与企业内部数据融合在一起,更加全面地为业务的指导与决策提供基础依据,我觉得这可能是大数据时代传统企业当下最重要努力的方向;
二、如制造业、农业这样的行业,大部分还处在最初期的业务数据化阶段,目前谈真正的大数据时代还为时过早;
三、就是最典型的政府群体,政府其实是一个很大的概念,他们的数据资产很重也很强,比如说税务、社保数据。而且这样的领域往往原来的信息化水平就比较高,数据能力也较强,但他们的不足之处就是对数据的理解很有限,应用程度也很有限。
更具体阐述的话,我认为,未来政府数据的开放,主要会聚焦在民生相关的领域,并且肯定不会涉及到个人隐私、国家机密,这类数据开放的力度直接会对整个政府数据能力的提升起到关键作用。
政府数据的开放在国外早有先例,像英国、美国,澳洲等很多发达国家早已开放政府数据,不仅在实现智慧型政府、数据型政府起到了非常重要的作用,而且也使得老百姓可以非常重度的参与政府治理,也让更多基于大数据的产业变得非常有活力。
在国内其实也有相关尝试,去年上海市政府就举办了上海开放数据大赛,开放了部分交通数据,让社会创新创业型企业和个人基于交通数据做相应的应用开发以及创新性解决方案,这就是在盘活已有的政府数据资产。
来源:数据猿(www.datayuan.cn)