CNCC 2016 | 浙江大学陈纯:何为流式大数据?
陈纯,计算机应用专家,浙江大学计算机科学与技术学院教授,中国工程院院士。是国家教委“跨世纪优秀人才培养计划”首批入选专家,第三届中国青年科技奖获得者。目前是国家列车智能化工程技术研究中心主任,国务院学位委员会学科评议组成员。陈纯教授长期从事计算机应用领域的前沿研究工作,在著名国际学术期刊和会议发表论文160多篇,曾获国家技术发明奖二等奖1项,国家科技进步奖二等奖2项,国家科技进步三等奖1项,省部级科学技术一等奖6项。
今天CNCC 2016在山西太原盛大开幕,开幕演讲中,CCF会士、中国工程院院士、浙江大学陈纯教授做了题为“流式大数据实时处理技术、平台及应用”的报告,以下为报告内容精编。
各位领导、各位嘉宾、各位同仁上午好,我今天所讲的题目是流式大数据实时处理技术、平台及应用。
流式大数据
流式大数据从这个角度看,可以把大数据分成两个:一个是批式大数据,另一个是流式大数据。
举个例子来说
我们把数据当成水库的话,水库里面存在的水就是批式大数据,进来的水是流式大数据。
10年前,从传统的三架马车开始到现在组成了60、70个相关庞大的生态圈。重点我们可以看到,从2012年开始,才关注了流式大数据,就是数据流的模式。在之前,所有的大数据算法和系统就是批式大数据,从12年开始才专门针对流式大数据的组建。
由于数据流的处理,应用场景主要是两类:
一类是互联网
另一类是移动互联网
移动互联网和互联网的个性服务,不断提升用户体验对实时要求也是非常高的。一般要样本性的相应,而互联网的传感数据,通过智能分析来经营决策的。这以前大数据的分享,我们可以把它分成事后的风险和追溯,而更重要的应用事中的分析、处理。
现有的解决方案主要是两种:
一种集群式、分布式的解决方案,但是其实时响应比较慢。
另一种是组建流式大数据,即内存计算,但它的实时相应数据规模受限。
但是大数据的处理技术,主要有四个难题。它们分别是:
基于分布式内存的运行计算
可能很多台计算机,每台计算机多CPU,你一个任务下去,在计算机上同时进行内存的计算,它都是可以做到分布存储。
海量历史数据高性能的分析
当你流进水库的实时,不仅仅是处理流的数据,而且还要把你存在数据库的数据一起建立起来。因为这个时间窗口,要重复计算问题,并且有海量数据的复杂增量要计算。
数据流进来后,怎么样把流式数据跟历史数据一起计算?
所谓大数据,流式是必须要算的,解决办法就可以从增量基础上入手。
要用模型解决实际应用的问题
张老师说像统计的模型,基于规则的模型,这些模型能够很好的结合。所以要把实施处理的分析模型分开,这样就能针对不同的问题进行可以计算。
这四个就是最重要的四大问题,我们现在的研究成果——流立方的实时计算,把数据时间窗口、计算指标加上最核心的增量计算,也就是解决分布的存储的性能,与基于内存的计算更好的结合在一起。
流立方
现在我们来介绍下流式大数据实时处理平台,我们知道这个平台不仅仅是流立方计算引擎。结合大数据,相当于流立方的计算引擎要从60多个组件里面,抽取部分构成这么一个平台,同时还要加上分布存储、数据库,包括大数据的云处理平台,还有其他地方来构成这个平台,实际上这个平台是非常强大的系统。
下面介绍有应用,这个是流立方应用的框架。
红线里面都是以流式大数据存在的计算指标、统计指标,左边是有一个分析处理模型,这个模型是可以基于数学模型指导。所以,当你把一个要解决的问题,比如说:
下围棋要学习,就可以把下棋的棋谱传进来。可以在这个平台上进行计算,这是外部应用系统。
它可以应用很多,流立方实时平台上在原有基础系统上,做一个并行系统实时检测,通过专业知识、模型来实时分析。
下面具体来看几个案例:
金融风控反欺诈
我们每个人刷卡、消费、支付的时候,实际上到了银联的风控系统,来判断你是不是骗子。
原来支付系统很简单,通过计算机、通过手机直接进入支付。但是你可能是受到诈骗,这个时候怎么办?
以前的系统到了晚上12点,银联把今天的数据重新统计下来,会发现有多少诈骗。后来在互联网上,每个人要发一个U盾来验证。当你支付的时候,要判别这个钱要不要付出去,在数据上做一个判别,就是风控引擎。
这个风控引擎就是抓互联网诈骗的工具,目前银联正在使用的这个系统
计算只有4台PC,可以每秒并发处理5万。而规则有几百万,是通过机器学习来实现的。
要特别强调,所谓大数据应用,离不开这么一个架构。因为首先,我们要知道数据最重要的是标识数据。用手机、还是电脑进行诈骗,以前的处理就简单——比对就好,不用的大数据规则。这种则需要去分析,所以要有标识。因为是大数据分析,所以要有技术、设备的指南以及结合规则。
现在电子支付上,除了蚂蚁金服和微信支付是自己做的风控以外,基本上所有的系统都是基于流立方来做的。
反爬虫系统
第二个例子,是用流立方系统做一个反爬虫系统。
现在所谓的大数据,最开始是爬别人的数据,把别人的数据爬来监听其商业模式。
15年、16年的时候网站大部分是在爬虫在爬,遍布各类网站,包括银行类、政府类、社交类等等。消耗我们资源、影响正常分访问、增加运营成本。
现在用的流立方这个系统,它可以把增加数据的服务,把数据的指南、人机的识别、爬虫的行为分析都考虑进去(用安全专家、网络专家规则的形式把它考虑进去)。这个就是非常好的实时爬虫修补了。
流立方平台能把控基础、风控引擎,针对爬感知到所有信息。当你做风控系统的话,先对风控模型进行观测,再启用风控。
铁路售票网12306
第三个案例,我想就是跟大家可能更紧密,就是铁路的售票网站2306。
我们知道原来12306订票的话,需要一个什么?图片验证码。为什么要有这个图片验证呢?就怕的什么?黄牛来扒票、欺诈。
但是,当我们真的去订票的时候,复杂的验证码可能很麻烦。现在对12306投诉最多的是我验证码辨别不出来,第一次验证不出来,第二次还给你更难的图片。因为你分辨不出来,它就认为你是黄牛了,把更难的给你了。
这个很复杂,我们觉得好像是把黄牛打完了。但是他做了爬虫,就众包给大爷、大妈,所以现在还是没办法,黄牛来倒你票的时候,是给退休大妈、大爷做的。这个最后很麻烦,投诉越来越多。
那么,我们有没有可能做出类似的人工智能,实时根据黄牛的行为分析,根据他的手机号、身份证,能定出几百条的规则来实时处理?
这个呢,相对难度比较大。我们刚才讲了,在0.1秒钟内通过对每位购票者的分析,也就是我们说的准确画像。但是精准识别票法,要远远高于我们现在的识别票法。
平时的访问量,我们做了统计,用户的访问量,在春节期间,每天是310万。但是最可怕是爬虫,跑虫的访问量每天是1500亿,峰值是每秒钟170万。
我们现在的流立方,现在尝试每秒40万亿,甚至能做到16台、24台均衡上升的。
为什么说爬虫?可能大家不是很了解,我跟大家讲一下,很多网站的票都是从12306买来的。用爬虫数据,把好的票留下来,通过爬虫购票,在10分钟以内,你没有付钱的话没关系,他也可以把票退回去。在网站上,我们没有订票,在9分多钟的时候,把票退回来。在10分钟以内有人在网站订票,真实身份证上传的时候,把这个票马上退回去给你交易,所以把12306购票网站把整个系统爆了。
应用前景
应用的前景非常的广泛:金融、电信、交通、公安、海关、互联网都可以应用。
体会
流数据的实时处理
流式数据的实时分析,一定是有规则、模型的东西。复杂的分析计算,加上实时这两个结合起来,如果能做的好,一定能够加速大数据在各个行业的应用。
大数据
我们现在大数据要么就是卖数据,对比数据,事后不同的分析,事后来追溯,这个非常重要。
但是我们现在应用最重要,还是要结合不同的空间数据实施流数据分析。这个要有平台才能把所有的数据(互联网、移动互联网还有互联网+)共同体验、提升。
我就讲这么多,谢谢大家。
撰稿人:雷锋网 李尊
点击【阅读原文】查看CNCC2016大会日程
CNCC2016更多精彩文章请关注中国计算机学会公众账号
投稿:fancc@ccf.org.cn
授权:jyang@ccf.org.cn
长按二维码关注中国计算机学会