【个推CTO谈数据智能】之本质及技术体系要求
安森,个推CTO
毕业于浙江大学,现全面负责个推技术选型、研发创新、运维管理等工作,已带领团队开发出针对移动互联网、金融风控等行业的多项前沿数据智能解决方案。
曾任MSN中国首席架构师,拥有十余年资深技术开发与项目管理经验,在大数据处理系统、大规模并发平台、分布搜索系统、手机应用开发、无线通信领域和智慧金融系统等领域拥有丰富实践经验。
引言
中国移动互联网的发展见证了中国大数据行业的蓬勃发展。数据智能作为移动互联网时代的自然产物,也是未来很长一段发展阶段的核心所在。个推(每日互动)和业界的共识不谋而合,从2010年成立到现在,经过多年的发展,从一家移动互联网时代服务于开发者的基础推送平台服务商,已经成长为创业板的上市公司,也是国内首家在A股上市的数据智能公司。作为专业的数据智能服务商,个推立足开发者服务,将不断致力于用数据推动产业智变。
围绕“数据智能”主题,我将通过一系列文章进行阐述。本文主要从技术角度来探讨数据智能中涉及的各个方面,希望通过这一系列内容,能让大家对数据智能以及所涉及的技术体系有一个比较清晰的了解。
本系列将从以下五方面展开:
01
数据智能时代的来临:本质和技术体系要求
核心内容:我们根据个推在数据智能领域多年的实践来讲讲我们对于数据智能的理解,并且从总体上提出对应的技术体系要求。
02
数据智能下的数据资产治理思路
核心内容:主要探讨作为资产后的数据如何进行治理,需要具备的基础,具体如何实施,最终保证数据资产的安全、合理使用、以及价值创造。
03
数据智能下的安全计算体系
核心内容:在保证数据资产的所有权和使用权分开的前提下,目前可以采用的技术和方法论。
04
数据智能下的数据质量保证体系
核心内容:大数据之所以为大,是因为其规模以及多样性,不同于传统的小数据,可以很快去验证其正确性,那么可以采取什么方法去保证数据的质量及可检验性呢?
05
数据智能下的不同行业的业务探索实践
正文
大数据的发展历程
本文是系列文章的开篇,首先聊一聊我们理解中的数据智能的本质;同时作为公司技术负责人,和大家探讨一下基于技术体系的要求,也就是数据智能时代,要从数据中体现智能,从技术方面需要做哪些事情。
什么是数据智能,这个概念怎么来的呢?
记得从2010年开始,随着移动互联网的兴起,大数据也随之出现在各个媒体网站和行业论坛,大家见面都会问一句:“你们搞大数据了吗?” 其实大家对大数据该如何加以应用都不太清楚。
大数据的发展过程是什么样的呢?下图比较清楚地对此进行了诠释。
我把它称之为大数据成熟度模型。这个过程实质上我们理解也是数据从工具变成为资产的过程,从一个辅助的东西变成生产资料的过程。现在在提的数字经济,很多人试图对此进行理论定义,以便把数字经济和实体经济从概念上区分开来,我的建议是就从数字是否作为主要生产资料,是否作为核心资产这个角度去界定,会比较简单明了。
从这几年的实际发展来看,大数据基本上按照上图的这个模型在演进发展。
2013年左右,企业已经开始认知到数据价值,各个具有大数据生产环境的行业如电信运营商、政府、公安、金融等开始建设大数据平台,收集并存储企业业务产生的数据。同时,金融等行业也开始大量购买外部数据,希望通过外部数据快速挖掘数据的价值,弥补自身数据短缺的问题,不少从事数据聚合和相关服务公司获得了发展机遇。
2015年,大数据进入到了监测阶段,通过数据大屏等形式,实现对业务的监测,这是大数据最早、最先成熟的应用方向。对于政府、央企及大型国企而言,数据大屏、领导看板等数据展现应用是大数据最直接能够反映价值的方式。
2017年,大数据平台建设基本完善,单纯数据展现开始难以满足企业的多样化需求,大数据开始与业务场景结合,基于大数据实现对业务问题的洞察,呈现出百花齐放的局面,分别应用在金融领域的精准营销和风控反欺诈,公安领域的刑侦破案,工业领域的故障预测预警等。
企业对业务场景的洞察,单纯靠简单的数理统计已经不足以满足要求,因此,数据挖掘、数据建模技术应运而生。AI建模平台、数据科学平台开始进入人们的视野,出现了一些主打建模平台的创业公司,但更多公司将AI建模平台内化成自身的能力,基于AI建模平台,形成解决方案,帮助企业客户落地大数据应用。
在2019年左右,大数据开始进入到业务决策阶段,也就是说,由机器形成数据报表或者数据报告,业务人员进行决策变成机器直接给出决策建议,让机器具备推理能力。例如,在外卖、出行场景,美团和滴滴的系统直接形成最佳调度方式,系统自动完成决策环节,将任务下发给骑手和司机。这种消费互联网相对常见的场景,将在产业互联网、企业业务场景中逐渐出现。也就是说,大数据开始从业务数字化阶段向数据智能化阶段迈进。
数据智能的特征和定义
从上节中的大数据发展历程中,我们看到数据智能目前对应的是决策、优化以及商业重塑阶段,也就是说让机器具备推理能力;而这些能力意味着自然语言处理(NLP)、知识图谱(Knowledge Graph) 等认知技术的逐渐成熟,这也是为何2018年NLP、知识图谱成为市场的热点的原因。因此,数据驱动决策,数据驱动业务发展的企业新需求,也必然会带动一批数据智能公司的兴起。
未来,随着技术更加成熟,大数据会从决策进入到最后一个环节,也就是业务重塑。很多执行环节可以由机器来实现,但仍然有很多环节需要人参与其中。因此,人机协同会迎来迅猛发展,从人工智能 AI (Artificial Intelligence ) 向人类智力增强 IA (Intelligence Augmented) 进发。
至此, 我们试着给数据智能做一个定义:数据智能就是以数据作为生产资料,通过结合大规模数据处理、数据挖掘、机器学习、人机交互、可视化等多种技术,从大量的数据中提炼、发掘、获取知识,为人们在制定决策时提供有效的数据智能支持,减少或者消除不确定性。
大数据的发展历程
数据智能首先需要有数据提供,而且数据在其中充当着核心资产和生产资料的角色,那么对于数据的治理就显得尤为重要。什么是数据治理(Data Governance) 呢? 我们经常听到公司治理这个词,公司治理在经济学上主要解决几个问题:
所有权和经营权如何分离?
公司所有者如何向职业经理人进行科学的授权及监督?
那么对应地,数据治理也要解决类似的几个问题:
数据(资产)有哪些?
如何让数据所有权和使用权分离?
数据资产所有者如何向数据使用者进行科学的授权及监督?
数据智能的所有手段其实都是在解决上述的几个问题。关于数据治理方面的内容我将在本系列的第二部分进行详细描述。
同时,我们知道穷人和富人之间的差别在于对待财富的态度,富人更多的是从资产增值的角度去对待财富,想的是如何创造更多资产,并且让资产不断增值;穷人更偏向于从消费的角度去看待财富,赚来的钱更多的是用于消费。那么在数据智能时代,如果我们想成为一个“富人”,就需要考虑如何让数据发挥更大的价值,如何找到其他合作者去联合创造价值,但是数据不同于别的资产,其具有可复制性、难确权的性质,这就需要我们去解决数据安全问题,也就是目前行业内比较关注的安全计算技术,在本系列的第三部分我将对此进行详细阐述。
还有一个需要我们关注的点是:大数据由于其具备的 4V 特性,特别是量大、种类多,有时候会让我们对于其聚合或者产生的结果存疑,虽然有一些可以通过常识或者直觉去判断,但是总是有说不出的味道。这就需要有一个质量保证体系来让我们对于数据从产生到最终的各个环节有一个完整的检验过程,本系列的第四部分会对质量保证体系进行详细描述。
在这里小结一下,数据智能的技术体系至少需要包含三个方面:
数据治理系统
数据质量保证系统
数据安全计算体系
结语
数据智能作为大数据时代一个重要且激动人心的阶段,机会与挑战并存。作为本系列开篇文章,本文对该主题内容进行了一个整体概述,后续会对具体内容逐步展开,希望对大家有所帮助。
番外
文章构思于2019年7月24日,忽然发现这个数字很应景。7*24 是很多行业中服务的态度和承诺,表示一周每天24小时提供服务。在数据智能时代,个推的产品和服务也必定是全天在线,一周七天!
我们一直深耕于开发者服务领域,以消息推送为基础,发展了“用户画像”、“应用统计”、“一键认证”等一系列面向APP开发和运营的产品,构建开发者新生态。同时,个推不断拓宽以数据智能为核心的服务边界,以创新的技术为移动互联网、品牌营销、金融风控、智慧城市和公共服务等各垂直领域提供定制化的大数据解决方案。未来,个推希望用数据和技术的力量与更多的行业共筑数据智能共赢生态!
Spark Streaming的优化之路——从Receiver到Direct模式