金融机构大数据平台架构设计要点
上周,社区邀请了某商业银行资深大数据平台架构师王磊和IBM认知系统解决方案架构师崔金,分享“金融企业大数据平台化架构设计思路以及未来人工智能应用”。本文主要选取了王磊分享的“银行大数据平台架构设计经验”中的重点内容,以及在交流中涉及的有关大数据平台架构设计的具有普遍性的问题及解答。
一、银行大数据平台架构经验分享
以上选取部分为分享重点,完整PPT下载及视频讲解可以点击左下角阅读原文
二、金融机构大数据平台架构设计涉及的典型问题及解答
Q1、大数据目前在国内银行的应用场景和推广状态?
A:
银行业使用还是挺普遍的,至少大行、股份制和一部分城商行都有落地了,不少行的技术尝试阶段已经差不多了结束了,下一阶段是结合新的业务尝试在不断丰富应用场景。
Q2、金融企业大数据平台架构设计的关键点有哪些?
金融企业大数据平台架构设计的关键点有哪些?如何考虑不同类型计算资源的部署,如x86、Power小型机、Powerlinux?
A:架构设计的关键首要是要满足业务需求,提炼业务需求的非功能特性,提出针对性的架构设计方案。作业自主研发能力有限的企业,在大数据系统建设中首要是合理的选择技术组件,如果科技力量更强可以考虑参与开源社区对组件的优化完善等工作中。
关于计算资源的问题,Hadoop技术体系目前在国内的案例主要还是基于X86物理机,而基于虚拟机或Docker的方案还在尝试过程中。
Q3、针对结构化、半结构化和非结构化的数据,在设计大数据平台中分别有哪些要点?
A:大数据平台最好存储与计算相关的数据,非结构化数据如果不能利用分布式计算能力就不建议在hadoop这类平台上存储,可以考虑其他的分布式存储方案。结构化和半结构化差别不多,考虑具体应用场景和数据使用模式来制定方案。
Q4、大数据平台如何对大规模流数据加工封装,以及实现内容分发?
主流的几种大数据平台如Spark或Hadoop,如何实现对大规模流数据进行深层次的加工?以及封装后如何进行内容分发?
A:流计算框架主流的是SparkStreaming/Storm两种,其他的还有Heron/Flink等等。流数据加工通常涉及到数据的分发订阅,Kafak是目前比较流行的分布式消息系统。
Q5、大数据平台可以做到对客联机的联机高可用查询要求吗?
A:基于HBase可以满足联机交易的查询请求,Impala也可以满足一定程度上的联机查询对接BI报表工具。不过还要看具体场景的要求详细分析。
Q6、关于大数据采用什么架构策略
现在各个行业都在谈论大数据,这个可能是当今的最热话题。那我们在考虑大数据的时候,应该怎么规划他的数据库架构哪?多大的数据量用什么样的架构,有没有一个比较好的规划策略。
A:1、小规模的使用,可以分散建设应用集群,灵活度高。
2、没有发展自身技术团队打算的,可以找靠谱的集成商。
3、有长远打算的,建议做平台的整体规划。
数据量的问题,通常超过TB级别可以考虑大数据技术或其他MPP,低于这个数量级RDB完全可以搞定。
Q7、大数据平台元数据管理问题
大数据平台,如果想做元数据的事中管理,要考量的点有哪些呢,有比较成熟的方案吗?
A1:元数据管理还不是开源社区的重点发展方向,在一些商业版中有部分功能支持,如果想要一个更完善的方案还需要基于自身情况来定制.
A2:很高兴你能提到元数据问题,其实很多企业只关注大数据,对元数据的管理方面很不到位,同样指标几十个不同名称,带来数据质量问题跟沟通问题。简单的管理可以基于业务,纬度方面给表字段命名,
Q8、关于非结构化数据的存取
非结构化数据,如语音,视频 在大数据环境下怎样才能合理存放,以利于数据的调取使用?
A:语音与视频数据的问题,要结合该类数据的使用方式来判断。具备计算能力的存储其成本要更高,如果仅仅为了存储可以先考虑其他分布式存储方案如CEPH等。
语音和视频涉及到语音识别和计算机视觉等技术领域,如语音识别文字等处理目前尚未了解到其是否能够基于Hadoop等并行处理框架实现,如果存在类似方案则可以考虑在Hadoop上集中存储。
Q9、大数据的数据质量问题
请问有哪些保障大数据的数据质量的方法?因为如果没有从来源上保障数据质量,后续的利用和挖掘也就步履维艰,能谈一下大体思路吗?
A:实践中,数据质量始终是一个不容易解决的问题,这是因为良好的数据质量必然依赖于一个技术与管理相互结合的方案,要在企业范围内有统一的制度和充分落地的执行。大数据技术被没有提供更好的解决方案,因为开源社区似乎没有将其作为重点的关注方向,甚至在配套的元数据管理等方面还稍逊于传统的商业产品。目前阶段,大数据应用还处于一个离散化的状态,完全现面向应用建设,没有像传统EDW那样形成完整的企业数据模型体系。毕竟大数据的应用模式还在不断探索的阶段,谈论这类强约束的模型还为时过早,个人认为这种状态估计还会持续相当长的一段时间。此外大量外部数据的引入,也对传统的基于封闭体系、强调源头管理的数据质量管理理论提出了挑战,降低噪音提取有价值的信息,会成为大数据应用的一个常态,不再是辅助流程,要在系统设计过程中予以考虑。最后,如何控制数据质量,还要平衡其成本和收益。
Q10、关于大数据的数据迁移问题
早起设计平台时因为各种原因,实现了平台的 逻辑统一和物理分散,现在拟计划将不同物理地的数据进行物理集中,面对海量数据如何进行数据迁移和集中呢,而且不影响应用正常使用?
A:基于Hadoop搭建的大数据系统,要做到大量数据迁移,过程中不影响正常使用是非常困难的。
因为HDFS作为底层存储是要将数据分块而后尽量均匀的分布在集群的各个节点上,默认三副本策略是如果远端调用接口则第1份部分可保存任意节点,第2份保存在同一机架的节点上,第3份则在不同机架上节点。
短时间内持续的大量写入数据会对集群中众多节点产生影响,占用磁盘IO和网络IO。此时如果集群同时支持HBase这样的联机查询或写入服务,则会产生较大的影响。即使是批量数据处理操作,也同样存在竞争影响其服务处理时间。
如果确实无法停止服务,建议选择系统服务压力较小的特定时间窗口完成迁移数据的加载。
Q11、关于大数据平台的租户管理问题
依托hadoop等多个开源框架可以搭建并使用大数据库平台,但是由于各个应用系统的数据量等实际情况,如何实现不同应用之间的租户管理,并实现资源的合理控制呢?
A:多租户管理是目前大数据技术发展中不断强化的一个重要特性,主要落脚点在安全管理和资源管理上。Hadoop1.0到2.0引入的Yarn就是解决资源管理问题,改变1.0下简单的资源竞争模式。此外一些技术组件如HBase/Kafka都在丰富其安全和资源管理方面的能力。
多租户在本次分享中是一个很关注的点,感兴趣的朋友可以关注PPT或视频分享的内容。
本次活动分享的主要内容更包括:
大数据平台架构设计要点:多租户;组建标准化及服务封装;促进生产效率提升
大数据平台应用场景拓展,从成本降低场景拓展到价值创新场景,如事件营销、事中风控、客户画像、安全态势感知、行为分析等等
大数据与人工智能的关系
基于IBM Cognitive Systems 认知系统的人工智能在金融行业的应用
如对本次活动的内容感兴趣,欢迎点击本文左下角阅读原文,观看两位嘉宾分享的完整视频和全部QA,或下载资料。
长按二维码关注“AIX专家俱乐部”公众号