【案例】中国人民银行反洗钱监测分析二代系统大数据综合分析平台 ——海量数据复杂分析处理
中国反洗钱监测分析系统于2005年开始立项建设,根据业务发展,分步上线,不断扩展升级,完成了银行、证券、保险等13类约2500家报告机构反洗钱数据的接收和保存,初步建成了国家反洗钱数据库,实现了反洗钱信息的监测分析和移送功能,为反洗钱中心十年来的监测分析工作提供了有力保障,为国家开展反洗钱、反腐败、反恐怖融资、打击各类经济犯罪以及反洗钱国际合作提供了有力支持。
作者 | 南大通用
官网 | www.datayuan.cn
微信公众号ID | datayuancn
本篇案例为数据猿推出的“金融科技价值—数据驱动金融商业裂变”大型主题策划活动第一部分的文章/案例/产品征集部分;感谢 南大通用 的投递
1、企业名称
中国人民银行
2、所属分类
金融科技 · 大数据技术服务
3、案例背景
中国反洗钱监测分析系统(以下简称“原有系统”)于2005年开始立项建设,根据业务发展,分步上线,不断扩展升级,完成了银行、证券、保险等13类约2500家报告机构反洗钱数据的接收和保存,初步建成了国家反洗钱数据库,实现了反洗钱信息的监测分析和移送功能。为反洗钱中心十年来的监测分析工作提供了有力保障,为国家开展反洗钱、反腐败、反恐怖融资、打击各类经济犯罪以及反洗钱国际合作提供了有力支持。
近年来,反洗钱形势发生较大变化:
一是国家治理体系和治理能力现代化对反洗钱监测分析工作提出了更高的要求;
二是洗钱犯罪类型已发生转变,国内反洗钱覆盖行业不断扩展,洗钱犯罪手法更隐蔽,原7类上游犯罪已不能涵盖,特别是恐怖融资形势空前严峻,对系统功能的要求更高;
三是国际合作不断深入,我国已与40多个国家签署了反洗钱合作备忘录,随着双边合作和多边合作范围的不断扩张,反洗钱中心今后所承担的国际互协查任务和所需要满足的国际互评估要求对系统功能提出了更高的要求;
四是依法履职的自身发展要求越来越高,随着系统定位逐步清晰,反洗钱中心应能依法接收、匹配足够信息,将积累的经验知识转化为系统功能,开展犯罪类型学研究,通过模型和数据挖掘进行个案分析和宏观分析,实时监测掌管洗钱线索,及时、全面、准确、快捷地为执法机关提供协查和扩展资金链分析;
五是原有系统受原有技术架构限制,业务功能和系统性能提升能力有限,急需改造升级。
为此,反洗钱中心迫切需要建设一套新监测分析系统,以满足新形势下反洗钱和反恐怖融资的需要,为人民银行在新形势下切实履行好反洗钱监测分析职能提供技术保证。
4、实施时间
5、应用场景
反洗钱二代系统的建设目标是在过去系统建设经验的基础上,充分利用总行资源,构建功能更完善、性能更高效、安全性更好、架构更合理、使用更便捷、扩展更方便的反洗钱监测分析系统,为人民银行在反洗钱新形势下依法履职提供保障。既满足“3号令”,即《金融机构大额交易和可疑交易报告管理办法》(修订版)实施后的数据接收和监测分析移送需求,也适应未来一段时期反洗钱中心业务发展和反洗钱局及人民银行分支机构履职的需要。
反洗钱二代系统是从头建设的全新系统,建成后原有系统的历史数据全部迁移至二代系统。大数据综合分析平台是反洗钱二代系统的重要组成部分,基于目前最新的大数据处理技术手段和理念,采用分布式架构,为反洗钱二代系统实现高效的数据处理与查询分析,以及数据服务能力的弹性扩展提供基础性平台,解决传统技术架构无法支撑海量数据及非结构化数据应用分析的问题。
6、面临挑战
中国人民银行反洗钱监测分析二代系统大数据综合分析平台建设中面临以下难点:
1、如何实现事务型数据库、MPP数据库与Hadoop平台完美混搭
事务型数据库擅长处理OLTP型应用,MPP数据库适合高密度结构化运算,而Hadoop平台的优势在于非结构化数据处理及其扩展能力。因此要评估哪些场景适用事务型数据库,哪些场景适用MPP数据库,哪些场景适用Hadoop平台;数据在多个数据库之间如何组织流向;如何实现不同数据库之间的数据交互,同时能够做到多种架构功能互补。
2、反洗钱应用从反洗钱一代系统中的Oracle迁移至MPP及Hadoop平台,如何能够运用新的基础架构特性,并快速完成已有应用迁移,新数据模型开发。
3、大规模的集群环境,多种数据引擎混搭,如何统一规划、部署、管理、监控。
反洗钱二代系统的基础平台,涉及到事务型数据库GBase 8s,MPP数据库GBase 8a MPP Cluster,Hadoop平台以及云平台。其各种引擎间差异大,管理和运维难度较高。因此对于多种基础平台的安装部署、升级、管理需要有统一的管理流程及操作方式。对于多集群的监控、预警、健康检查也需要有效的流程与系统支撑。
4、如何满足反洗钱应用对数据平台的响应时间要求
反洗钱基础数据平台,支撑数据上传接收流程管理、数据查询分析、主体账号属性计算、制式化报表等应用场景。各类场景对数据处理响应时间都有较高的性能要求。其中MPP数据库对应的交互式查询分析,则需要秒级响应,峰值并发达200。在设计数据模型及数据架构过程中,需要考虑各个数据库的性能能力问题。
5、如何保证平台高可靠性,高可用性,容灾机制
反洗钱监测分析二代系统大数据综合分析平台是国家反洗钱体系的核心,在全国反洗钱领域的地位异常重要。平台故障会对全国的机构数据上传,反洗钱业务以及国际情报交互产生影响。因此要从数据库、应用等多个层面保障平台的稳定性及高可用性;同时要考虑几百台数据库服务器跨机房容灾这一难题深入研究,通过搭建同城灾备集群、数据同步、数据备份等多重灾备机制保障数据安全及系统的可用性。
7、数据支持
反洗钱监测分析二代系统大数据综合分析平台采用南大通用的GBase 8s,GBase 8a MPP Cluster,Hadoop和云虚拟化平台混搭架构建设。其中GBase 8s服务器生产环境12节点,灾备环境12节点,集成研究环境1节点。GBase 8a MPP Cluster采用130节点,其中生产环境62节点,灾备环境62节点,各自承载280TB数据量,集成研究环境6节点,承载70TB数据量。Hadoop平台总共140节点,其中生产环境60节点,灾备环境60节点,集成研究环境20节点。
总体架构图
数据处理层由GBase 8s、GBase 8a MPP Cluster和Hadoop混搭构成,形成反洗钱监测分析二代系统大数据综合分析平台的基础数据平台。
GBase 8s:承担结构化数据采集,国际国内情报交互、监管报送、回执生成等应用。
GBase 8a MPP Cluster:承担结构化数据管理和计算。包括客户交易数据汇总、客户风险等级评定汇总、可疑交易数据汇总,以及作为数据集市为应用提供实时数据查询。
Hadoop集群:承担历史库、数据归档、非结构化数据处理、数据清洗转换以及部分分析挖掘工作。
云资源池:利用虚拟化技术,为应用系统,提供基础资源支持,包括计算资源、存储资源及网络资源。
统一数据平台监控与运维系统:负责对基础数据平台所涉及到的GBase 8s、GBase 8a MPP Cluster、Hadoop集群以及云资源池的统一监控、运维管理。
数据流转图
结构化数据:
1) 结构化数据通过GBase 8s进行数据采集,进入GBase 8s进行数据缓冲;
2) 数据按照每天时间窗口,同步至Hadoop平台,进行清洗、转换、汇总、加载;
3) Hadoop平台对历史交易明细数据进行模型化处理,生成面向主题的集市数据;
4) 集市数据按照每天的时间窗口,同步至GBase 8a MPP Cluster,形成数据集市,按照主题建立数据立方体,并根据数据捕获层及职能展现层进行深度分析,支撑各类上层分析应用;
5) 分析结果数据和指标数据,由GBase 8a MPP Cluster同步至Hadoop作为数据归档。
非结构化数据:
1) 非结构化数据通过Hadoop进行采集,进入Hadoop中的HDFS,进行存储,数据包括半结构化、非结构化形式的原始报文文件、原始电子档案文件以及数据处理过程中产生的临时文件等;
2) 在Hadoop平台对上述HDFS文件进行批处理,提取结构化数据,并对生成的结构化信息进行轻度汇总,作为数据仓库历史数据;
3) 通过数据平台访问接口,对应用实现半结构化数据、非结构化数据的内容访问功能。
8、应用技术/实施过程
关键技术1:混搭架构
运用GBase 8s高性能OLTP处理能力,能够接收上万家机构反洗钱数据上传接收,并对数据采集流程进行管理,保证高并发及高性能。
运用GBase 8a MPP Cluster大规模并行分析型数据库,能够直接从Hadoop读取并加载数据文件。数据入库后对数据进行实时查询及反洗钱模型执行,其强大的数据分析和数据查询能力,能够支撑几百名业务人员同时进行反洗钱作业。
运用Hadoop分布式存储与分布式计算的大数据技术,进行非结构化数据处理,数据清洗转换,历史数据存储,数据挖掘,制式化报表,全文检索等作业,管理全量归档数据,以及非结构化数据,成为可靠的数据存储和计算平台。
关键技术2:同城灾备
通过系统统一调度及监控平台,结合GBase 8a MPP Cluster集群间同步工具搭建同城主备灾备环境。其中利用GBase 8a MPP Cluster集群间同步工具进行生产环境与灾备环境的增量数据同步(T+1),实现主备集群数据一致;通过大数据平台统一调度及监控平台,进行主备方式的负载均衡,灾备环境可以承担读操作,当生产环境发生故障时,原有模型加工及实时查询等应用有统一调度切换至灾备环境,保障数据一致性及业务连续性。
同城灾备架构,解决了在大数据平台下系统备份恢复问题,实现了传统架构下的系统级高可用和稳定性,保障了全国反洗钱应用的持续运行,对反洗钱中心对外的服务能力,提供了保障。
9、商业变化
本项目是中国反洗钱领域最大的数据平台,也是第一次国产化数据库进入中国人民银行的核心业务系统。
全国反洗钱数据统一集中管理
作为数据平台架构核心的GBase 8a MPP Cluster,其海量数据处理能力为用户提供了性价比很高的海量并行复杂数据处理平台,帮助客户形成全国反洗钱数据统一视图,为反洗钱监管机构提供及时高效的数据分析结果。
新型反洗钱业务创新
GBase 8a MPP Cluster具有分布式,高性能等特性,保证平台接入更全面的反洗钱数据,具有高效的响应能力,支撑新型的应用创新,包括数据接收(报告收集、报告机构管理和报告机构能力建设)、匹配信息获取、数据管理(数据治理和数据处理)、监测预警(名单预警、规则模型预警)、操作分析(可疑分析、数据协查、人民银行反洗钱信息交互和分析移送管理)、宏观分析、国内合作和国际合作。
系统开放性及扩展性
系统采用了开放型技术架构,能够动态接入多种分析手段及分析工具,支撑未来复杂的数据分析应用。其采用的技术具备动态的扩展性,通过增加X86服务器方式进行扩容,为未来接入更多的数据,提供了技术支撑。
大数据平台同城灾备
系统采用大数据同城灾备方案,解决了大数据平台海量数据备份的问题,使整个反洗钱监测分析二代系统大数据综合分析平台具备系统级高可靠性,保障反平台后续的持续稳定运行。
- 企业介绍 -
天津南大通用数据技术股份有限公司是国产数据库的领军企业。2013-2016连续四年在赛迪顾问发布的《中国平台软件市场研究年度报告》中位列国产数据库市场占有率第一,并在IDC年度研究报告中被评为“国产数据库第一品牌”。南大通用以“让中国用上世界级国产数据库”为使命,打造了GBase 8a/8t/8m/8s/8d/UP等多款国内领先、国际同步的自主可控数据库、大数据产品,并在金融、电信、政务、国防、企事业等领域拥有上万家用户。
产品国内领先、国际同步
GBase 8a是结构化大数据分析领域的产品,与国外同类主流产品保持技术同步,市场同级。以大规模并行处理、列存储,高压缩和智能索引技术为基础,具有满足各个数据密集型行业日益增大的数据分析、数据挖掘、数据备份和即席查询等需求的能力。
GBase 8t是一款与世界技术同级的国产事务型通用数据库系统。原型产品在世界各地金融、电信、政府、企业的核心业务系统中广泛应用,OLTP事务处理性能达到同代世界水平,通过中国信息安全认证中心的安全可靠认证并在高可用、灾备、空间数据、时序数据等方面技高一筹。
GBase 8m产品是面向高频交易的事务型数据库,采用多核、多进程、大内存、SSD等最新硬件技术,比同类内存数据库的性能有了大幅度的提升。
案例丰富、为核心系统国产化提供可靠选择
GBASE是唯一规模化进入高端行业核心系统的国产数据库。
GBase 8a支撑了央行反洗钱二代系统、农行核心数据仓库、中行大数据平台、招行审计风控,以及移动、联通、电信20多个省的大数据平台、经营分析等关键业务系统。已经在银行、保险、证券、电信、电力、公安、安全、机要、税务、社保、财政、卫计、食药监、统计、海洋、军队、军工等十七个行业规模化应用。
GBase 8t已经在华夏银行、北京农商、雅砻江水电、贵州移动等17个关键领域的核心业务系统中上线,在银行、保险、电信、政府、军工、电力等106个行业用户完成测试,确认能够替代Oracle。
资质全面、为数据安全提供坚实基础
GBase 8s通过公安部等保四级、国家保密局认证,还是唯一符合信息安全政采要求、具备3C证书的数据库产品。加上密码局颁发的商用密码型号证书,已囊括信息安全产品类所有资质,是中国安全等级最高、资质最全的数据库。
聚集人才、蓄势待发
公司成立于2004年5月,注册资金11825万元,现有员工总数约770人,其中研发团队规模达到400余人,专业技术支持团队200余人,由国家“千人计划”中唯一的数据库领域专家领军,骨干研发人员均具有10年以上数据管理和信息安全领域技术开发经验。2015年7月31日,南大通用成功登陆全国中小企业股份转让系统(新三板)(证券代码:833056),成为国产数据库第一股。
作为整体活动的第二部分,2017年10月25日,数据猿还将在北京举办千人规模的“2017金融科技价值——数据驱动金融商业裂变”峰会并将在现场举行文章、案例、产品的颁奖典礼。
推荐阅读:
来源:数据猿