浅谈大数据风控平台的功能需求
导读:大数据风控业务的开展依赖智能风控平台,智能风控平台的技术基础是大数据技术,智能风控系统技术架构也是以大数据系统技术架构为基础演进而来的。
智能风控系统技术架构主要分为访问层、展现层、系统层、大数据平台四部分,其中大数据平台又分为接入层、清洗层、计算层、数据层四部分。本文主要介绍大数据风控平台。
智能风控系统技术架构图
大数据平台是智能风控系统技术架构的持久层,但又超越了传统的持久层功能,是以持久层为基础进行了技术应用的丰富。持久层又叫数据访问层,是指把数据永久地保存在存储设备中,它直接与数据库交互。
大数据平台的创建不仅服务于智能风控体系,还服务于业务的其他场景,例如业务的营销场景、运营场景等。考虑到智能风控系统技术架构的数据还会服务其他业务场景,因此在初期搭建规划的时候应该考虑数据层的通用性、易用性、非耦合性等;并且伴随互联网业务的快速增长以及大数据技术的广泛运用,传统持久层的设计也不再局限于数据库以及数据的交互,而是以持久层为基础升级革新为大数据平台,统筹管理、规划数据的应用。
智能风控系统技术架构的大数据平台划分为接入层、清洗层、计算层、数据层四部分,这里只着重介绍接入层、清洗层、数据层的技术应用。
接入层负责智能风控平台的内部接入,包括大数据平台以及系统层的系统产品的数据接入,通常接入的数据有结构化数据和非结构化数据两类,常用的技术应用有MQ、HTTP、HTTPS、FTP等,具体的技术介绍如下。
MQ(Message Queue,消息队列)是基础数据结构中“先进先出”的数据结构,一般用来解决应用解耦、异步消息、流量削峰等问题,是一种能够实现高性能、高可用、可伸缩和最终一致性的架构。
HTTP(Hyper Text Marked Language,超文本标记语言)是一种标识性语言,包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的网络资源连接为一个逻辑整体。
HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer)是以安全为目标的HTTP通道,在HTTP的基础上加入SSL层通过传输加密和身份认证保证了传输过程的安全性,被广泛用于万维网上安全敏感的通信,例如交易支付等方面。
FTP(File Transfer Protocol,文件传输协议)是在网络上进行文件传输的一套标准协议,用于将文件传输到主机或与主机交换文件。FTP可以使用用户名和密码进行身份验证,匿名FTP允许用户从互联网访问文件、程序和其他数据,而无须用户ID或密码。
清洗层是数据清洗处理层,负责智能风控平台接入数据的清洗处理。清洗处理后的数据再被推送到计算层、系统层和数据层。通常大数据平台清洗层使用的技术应用有Kafka、ETL,具体的技术介绍如下。
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者在网站中的所有动作流数据。但大部分研发人员都会把kafka当作一个分布式消息队列,利用它的高性能、持久化、多副本备份、横向扩展等能力。生产者向队列里写消息,消费者从队列里取消息进行业务逻辑运算。
ETL(Extract-Transform-Load)是用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中。虽然ETL一词常用在数据仓库,但其对象并不限于数据仓库。
数据层是数据的载体层,大数据技术的基础是数据,因此大数据平台的基础是数据层。大数据平台的数据层为智能风控平台提供系统产品使用的数据,而智能风控平台系统产品产生的数据会回传到大数据平台的数据层,两个平台的数据相互循环迭代,数据量不断增加。数据层实际就是数据库,数据库根据数据存储方式分为关系型数据库、非关系型数据库,同时随着知识图谱技术的发展和应用,图数据库也被用到智能风控平台中。
大数据平台常用的数据库有MySQL、MongoDB、HBase、Giraph、SSD等,具体的技术介绍如下。
MySQL是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,属于Oracle旗下产品。MySQL是最流行的关系型数据库管理系统之一,在Web应用方面,MySQL是最好的关系数据库管理系统应用软件之一。
MongoDB是一个基于分布式文件存储的数据库,由C++语言编写,旨在为Web应用提供可扩展的高性能数据存储解决方案。
HBase(Hadoop Database)是一个分布式的、面向列的开源数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC设备上搭建起大规模结构化存储集群。
Giraph是一个迭代的图计算系统,是基于Hadoop建立的上层应用。
SSD(Solid State Disk或Solid State Drive,固态驱动器),俗称固态硬盘,用于数据库等文件的存储。
智能风控系统技术架构中用户通过访问层触发访问请求命令,由展现层承载访问请求命令并且传输请求命令到系统层,再由系统层根据请求命令获取大数据平台的数据,然后将数据传输到计算层进行分析计算,计算结果返回到系统层进行功能逻辑处理,最后输出系统层的服务结果到展现层或者以接口的形式提供给外部系统。整个智能风控平台通过智能风控系统技术高效、稳定运转,数据在智能风控平台中循环流转、迭代。
智能风控的核心技术是大数据风控技术,智能风控系统技术架构的设计应该以大数据平台为基础,充分融入大数据系统技术架构。
扫码关注【华章计算机】视频号
每天来听华章哥讲书
书讯 | 9月书讯 | 秋天的第一本书,来了资讯 | 什么是Serverless?有哪些应用?终于有人讲明白了书单 | 10本书,帮你看清未来的科技趋势干货 | Linux30岁生日:Linux 成功的真正原因收藏 | 终于有人把Scrapy爬虫框架讲明白了上新 | 【新书速递】“帆船书”——数据库领域殿堂级作品,全新升级第7版!赠书 | 【第71期】破案了!库里为何会花18万美元买一个猴子头像?