【速记】数起科技 李明国:让数据成为竞争力
10月31日,2017星环智慧大数据巡回论坛——郑州站顺利举行。本次巡回论坛,星环科技联合众多合作伙伴、用户展开应用案例分享,让更多行业人士了解大数据在医疗、农业、政府、交通、金融等行业应用中可以达成的效果。
因会后收到不少嘉宾反馈,对演讲内容非常感兴趣,演讲信息量大,现场又无法及时记录,特在后期推出嘉宾演讲速记系列,以最大程度弥补这个遗憾。
【大数据在政府审计方面的应用案例】
【演讲主题】让数据成为竞争力
【演讲内容】数起科技董事长李明国向我们分享了大数据在政府审计方面的应用案例。演讲内容主要包括以下三个方面:
一、选择星环大数据平台的四大理由;
二、审计行业面临的三大问题;
三、数据业务。
距离今年5月10号参加星环在上海的那次会议,不到半年时间里,我没想到星环在这么短的时间里,从产品研发到整个的应用,又有这么大的发展,一方面真的是很惊讶,另一方面也是很开心。今天非常荣幸能做这样一个演讲,我演讲的题目是“让数据成为竞争力”。
我本人做了15年的政府信息化,主要是做中央部委的。和星环还是比较有缘分。2013、2014年的时候,我们在审计行业遇到一个很有意思的问题。我先简单介绍一下审计。审计就是要把各行各业的数据采集过来做分析。当时有一个应用场景是全国社保的审计,当社保的审计汇集上来以后,单表上10亿条记录,出现多表关联分析的时候,转不动了。先是通过买机器,后来是买了国外的一个品牌,叫大数据一体机,花了五、六百万。机器买来后,有一个最复杂的模型转了两天,终于转出来了。这是当时面临的很大困境。
中央是可以有大投资的,那么在地市一级,在省一级,这些投资怎么办?当时也想到了MPP分布式数据库,后来我们又想到了现在的MPP并行计算,再后来又想到了分布式计算的技术。在这样的情况下,当时是联系了清华,因为我上一家公司和华为的工作是非常紧密的,包括华为的大数据部门,包括阿里,还包括市面上很多做开源软件封装的分布式数据的大数据公司,联系了四五家公司,最后经过测试和选择以后,还是选择了星环。为什么呢?我后面会展开讲。
这是国家关于大数据的一些政策文件,在这里我就不读了。
第二个是关于政府各个部门都可能会存在的问题。我们整个数据业务要做的话,大概有几项任务要做。第一项,是关于数据资产的梳理,这也是现在整个政府部门正在大力推行或者大力做的一个事情。马云在很多会上都说,数据将成为一种资产,甚至一种战略性的资产,作为资产来说,我们就要建立它的数据清单,这是第一步要做的。第二步,是关于数据的加工入库。第三步,是关于数据场景的设计,包括反洗黑钱等,都是数据的应用场景。
当时选择星环大数据平台的时候,我们主要考虑了五个方面,从功能、性能、价格、技术、安全五个方面来想的。
1、功能
功能上,简单的一个词就是满足,作为政府部门来说,从功能上来讲,它选择一个东西,大家都知道,政府机关相对是比较保守的,为什么呢?它首先考虑的是安全,如果因为技术不安全,它是不会选的。所以从功能上来说,你只要能满足它的要求,它不会再挑,这是当时在功能上,我们关于分布式数据库考虑的四个方面。
第一个是支持中文字段名。在座的各位可能做数据分析的比较多,你做数据分析的时候,你是有一个体会的,很多的不同公司开发的不同系统,它的所有的字段名都是英文的,读不懂,我前面其实介绍了,建立数据资产清单要做的一个工作,就是把它所有的翻译成中文,同时要给它归类,要给它梳理,在很多的专业名词里。
第二个是让业务人员写SQL语句就可以做数据分析,这个是当时选择非常重要的。因为当时全国有10万审计人员,通过计算机培训,或者全国在使用这种普通SQL来做数据分析的有上万人,你让这些人再学习Hadoop的语句不现实。
第三条是兼容。
第四是分布式。后面两条是比较技术性的。
基于这四点,当时能够满足的只有一家,就是星环。所以基于这样的原因,接触了星环。
在这里,我想单独展开讲一下开源的问题。很多人在市面上,当然不是站在这个地方我替星环说话,很多人在市面上拿是否开源事情来攻击星环,我举个简单的例子,很多人用苹果手机,苹果是闭源的一个系统,其实对最终用户来讲,是否开源重要吗?对于用户来说,是否好用,是否满足他的需求,才是最重要的。
所以基于这五条,当时最后在审计行业推的系统,最后的技术平台里,选择了星环。
2、性能
第二条是性能。我刚才说了,要用两天的时间转一个模型,也跟各位汇报一下,我们公司做了这么多年,沉淀了3千多个模型,有复杂的,有简单的。大家可以想像,我如果把所有的模型来回转,要花费多长时间,太痛苦了。所以这是第二个考虑,在性能上一定要解决效率问题。
这是我们当时采集的某省医保,跟我们也是相关的,医保的分析数据,单一部门的数据不大,500G,大家可以看,采集前后,上面是采集前的,下面是采集后的,这是整个的数据情况,后面是测试的整个过程,从把数据导入到星环的平台里去非常简单,就一条语句,而且速度非常快,每秒是200M,这是当时采集的一个页面。
下面这个其实是令我比较惊喜的一个功能,我没想到星环的平台提供了一个数据稽查的功能,它对脏数据自动剔除,我们回到上一张表,大家可能会发现这个数据量不完全一样,它对脏数据做了剔除。
这个是具体的每一个模型测试的一些运行结果,这个表行政区划是17万条记录,新农合人员的缴费记录是1.29亿条,这个记录出来是32秒的时间,这个运行的机器就是四台普通的PD Server,当然内存比较大一些,64G的内存。
这个是我们做的后面的一些分析,这个是新农合统筹之后进行排序5.5秒,说心里话,在以前我们采用传统的SQL Server数据库,确实是不敢想象的一个效率。
这个是单人年消费整合,就是在医保数据里头,如果是单人,有一个人消费到30万的,这样把全省的数据筛个遍,15秒。
这个是同一机构相同费用的统计,大概是10秒钟的时间。
这是按照家庭,我们把他的户口本信息拿过来以后,虽然是单人的记录不是在前面,但是单一家庭的消费记录非常高的,筛出来,这里就牵涉到多表的关联了,6秒的时间。
这个是三个源数据表,我单独也拿出来了,是生成全部病人结算完整的信息,前面两个都是2.3亿条记录,下面这个是4469万条记录,我把这些合到一起来,我们用了12分钟,在以前确实也是不敢想象的。
上面的是关于整个的性能方面,这是我们在其中一个省,当时做测试数据,其实大家可以看到整个效率的提升,而目前我们对星环的主要应用是在分析上,整个性能的提升上非常大,这是第二个原因。
3、技术
第三个原因就是关于技术。对于政府机关来说,主要关注的是要成熟,其实当时在政府里,我们在聊的时候,大家也说到这个观点,后来是因为一个很简单的道理,现在所有的互联网公司都基于分布式数据库在做了,你还担心什么?其实就是这样一句话说服了客户,选择了分布式数据库。
4、安全
关于安全方面,尤其是现在这两年,整个的政府机关强调的特别多,就是要自主可控,虽然现在大家不提了外资的产品,但是大家可以看到在整个政府采购里,外资的产品越来越少,星环也是一个纯内资的,刚才元浩同学也说了,是一颗中国心,也是基于这样的原因,这个可以延伸所有的投资,自然而然来看,全是中国人,这是第四个原因。
所以综合这四个方面的原因,我们最终选择了和星环合作。这是和星环整个的合作过程。
后面说一下我们现在做的一些事情,尤其是前面星环的元浩总和一位同事讲完以后,后面我基本上可以不讲了。我们当时在整个审计分析行业里面临三个主要大的问题。
问题一
第一个大的问题就是分析的效率问题。那么多数据汇到一起,我抓不到,刚才讲了,咱们已经把第一个问题解决了。
问题二
第二个问题,我们现在在审计里,涉及的行业有二三十个行业,像财政、税收、社保、商业银行,包括现在的环境资源,这样的审计分析都要做,涉及到的数据,我们按照数据表规划有几千张,模型有3千多个,这样布出来的疑点数据带来的工作量就会非常大,因为有时候疑点数据一筛出来,尤其是全国,几十万条疑点数据,靠人去标注和修正很难,所以我们当时有个希望,我标注完了正确与错误,这个模型是否可以自动的给我改过来。
问题三
还有一个,审计或者纪检部门这么多年沉淀了很多好人坏人的标准,把数据灌进去,把这些错误的行为输入进去,是不是可以自动的生成模型,后面的两个事情我们正在做。但是我很诧异,刚才我看星环另外一个同事在讲的时候,他们在银行的反欺诈系统里头,已经实现了这样一个功能,刚才跟元浩总也在沟通,是不是可以帮我们在审计里迅速的把这一部分完成。
梳理数据清单。这个是我们在政府行业做的,现在叫政府信息资源的分类,还是回归到我们做数据业务的第一项,数据业务第一项要做的一定是梳理数据清单,这是国家在倡导在做的事情,最近五部委联合,国家发改委、证监办、网信办、财政部和审计署,五部委加急发布的文件,在文件上直接写了一个加急,加急发布的文件就是整理这个东西,我相信从中央部门已经想清楚了,我要做数据业务,我要做我们的数据资产,第一步要做数据清单,这是我们在做的,这是国家级的大的分类,后面到单位。这是在审计部门做的清单。
清单分类。我相信对于很多的企业可能都会有一些参考意义,包括资源的分类、名称、代码、启动方、启动方的代码,信息资源的格式,信息项的类型,它的共享、交换,分了很多级别,是否开放等等。这是具体的明细分类,每一类的明细分类整理出来的。
模型和方法。这是在审计行业里我们整理的,刚才我说了大概有3千多个应用的场景,就是我们说的模型和方法。刚才看的是预算执行单位的,这是税务部门的,这是社保的,公积金的,很多了,我就不展开了。
应用场景。以前我们是把审计机关的数据和背景对象的数据通过ETL采集过来,加载过来以后,到后面来做数据分析。我后面又把互联网的数据加进来。这个是在审计里做的数据库的应用,我也不展开了,这都是基于星环的产品在上面做的应用展现。这个是给省级政府部门做的,政府运营在线监测,这个难点在哪呢?它是把十几个厅局的数据采集过来,在线实时采集过来,告诉省长你的收入支出情况,你的银行存款情况,现在国家重点要求的政府的债务情况,你的重大民生工程的情况,包括国家现在重大政策,像供给侧改革的落实情况,去库存转结构的情况,这些数据实时采过来,给省长看的。这个是具体的界面,这个是债务,能穿透到具体的行业,具体的机关。
【速记合集】
回复关键字,获取更多资讯
简介 | 产品 | 技术 | 案例集 | 培训 | 白话大数据
评测 | 投资 | 新手上路 | Holodesk | TED视频
技术支持| 金融 | 电力 | 视频监控 | 运营商 |交通
税务 | 电商 | 智能金融 | 医疗 | 快递|TDH5.0|流式计算 | 九城巡展