李大中,刘剑,邓景文
中国联合网络通信集团有限公司,北京 100033
摘要:大数据能力开放平台依托中国联通大数据生产平台优势,构建总部数据域大数据对外合作平台,打造一个内外合作、共存、共赢可持续发展的绿色生态系统。开放平台从能力接入、资源隔离、运营、安全、数据服务等方面以租户的形式全方位多角度地给省公司及合作伙伴提供平台服务,满足内外部的存储计算能力、数据服务、平台工具能力需求,通过开放平台释放中国联通总部积累的大数据红利。
关键词:大数据能力开放平台;数据服务;多租户
中图分类号:TP31 文献标识码:A
doi: 10.11959/j.issn.2096-0271.2017009
Innovation and development of big data ability open platform
LI Dazhong, LIU Jian, DENG Jingwen
China United Network Communications Group Co., Ltd., Beijing 100033, China
Abstract: China Unicom has built a cooperation platform called big data ability open platform based on its own advantages in order to establish a win-win cooperative, coexistent, and sustainable eco-system. The open platform provides variety services in the form of multi-tenancy model for branch companies and partners in aspects of ability access, resource isolation, operation, security, and data services. The open platform satisfies the requirements of internal and external storage capacity and computing ability, data services, and platform tools, thus brings enormous benefits to China Unicom Headquarters.
Key words: big data ability open platform, data service, multi-tenancy
论文引用格式:李大中,刘剑,邓景文. 大数据能力开放平台创新和发展[J]. 大数据, 2017, 3(1): 72-79.
LI D Z, LIU J, DENG J W.Innovation and development of big data ability open platform[J]. Big Data Research, 2017, 3(1): 72-79.
1 引言
2012--2013年,中国联合网络通信集团有限公司(以下简称中国联通)成立数据中心,完成数据顶层规划和数据采集,数据中心负责经营分析系统建设,主要为公司经营生产分析提供服务;2014--2015年,中国联通重点发展平台战略,完成总部大数据平台的建设和布局,采集范围从传统的BSS域、MSS域扩展到内外部移动互联网数据、用户位置信息,尝试数据对外合作,全方位落地数据安全管理工作;2016年开始,中国联通持续扩大数据采集范围,重点打造对外服务大数据能力开放平台以及相关数据产品,实现从单纯技术支撑向以业务运营为核心的全链条服务转型升级[1]。
经过3个阶段的发展,中国联通大数据在组织、架构、平台、服务、运营、规模等方面处于运营商中领先地位。截至2016年初,中国联通大数据的用户样本已经涵盖4亿用户,沉淀九大类3 000余个用户标签,识别3.8亿个URL地址和6万个互联网产品,识别3 000个手机品牌、8.2万个手机型号,日处理3 800亿条上网记录信息、 170亿条计费详单。中国联通大数据系统由大数据生产平台和大数据能力开放平台两部分组成,共计2 000个节点Hadoop集群,120台MPP集群,存储总量达20 PB。
中国联通大数据逐渐形成六大产品体系,分别是精准营销服务、企业与个人征信、位置服务、能力开放平台、标签服务、沃指数,合作的伙伴涵盖政府、保险、金融、地产、汽车、互联网等多个行业。
本文将重点介绍大数据能力开放平台的架构、能力和建设情况,通过分享一些典型的应用场景来描述能力开放平台和大数据生产平台之间的生产协作关系。
2 能力开放平台的定位
大数据能力开放平台对内支撑省公司个性化大数据应用,对外支撑合作运营,为入驻的租户提供“SMP+MPP+Hadoop+ 数据流”的各类存储和计算框架,租户之间计算资源、存储资源、数据资源相互隔离。依托生产服务平台为租户提供经过脱敏后的用户个体明细数据、个体汇总数据、个体标签数据和群体化数据,同时还提供多种建模工具、安全组件、报表展示工具和容器环境等内容。
生产服务平台主要完成BSS域、MSS域、OS S 域的数据采集、清洗和加工工作,数据处理方式包括传统的Oracle批量处理、Flume+Kafka数据流处理、Hive/Spark/Mr的海量离线处理、Hbase+Redis混搭的海量查询架构,最后通过SMP(对称多处理结构)架构数据库进行跨域数据整合并对外提供查询、报表和相关的数据服务。
开放平台中的租户进行模型训练所需的元数据和样本数据全部来源于生产服务平台。中国联通大数据系统平台架构如图1所示。
图1 中国联通大数据系统平台架构
3 能力开放平台的架构和能力
能力开放平台分为能力交付层、能力整合层和基础资源层,其中能力整合层是开放平台最重要的一层,核心能力都处于这层,由下自上主要完成动态资源调度、数据计算及存储、数据能力展示、数据获取、工具组件和容器环境部署等。能力开放平台架构如图2所示。
图2 能力开放平台架构
3.1 能力交付层
能力交付层包含了能力中心、工作台、能力集成、租户管理和系统管理5个模块。通过能力中心,租户可以查询平台提供的全部工具组件的种类、版本、容量、技术支持等信息,并根据需要申请使用;通过工作台,租户可以查看到已申请的各类资源历史和当前的使用情况,数据加工作业的运行情况,各类业务和数据工单的流转状态,并综合平台整体资源监控指标和租户资源监控指标,形成租户性能和服务等级协议(service level agreement,SLA)评估报告,为租户资源扩容、缩容申请提供数据依据;能力集成模块实现了数据中心所有应用程序编程接口(application programming interface,API)集中注册、发布、订阅、发现、安全管理控制与运行质量分析的管理;租户管理模型实现租户的注册、入驻、退租、资源扩容和缩容、计费等功能;系统管理模块实现了对租户各类角色的功能权限和数据权限管理、应用日志和系统日志的管理。
3.2 能力整合层
能力整合层是整个开放平台的核心部分,由工具与组件、数据服务、标签库产品、数据框架、容器服务、动态资源调度(DC/OS)6个模块组成。
(1)工具与组件
面向租户提供元数据、数据质量、ETL工具、自定义报表、交互式探索、建模、统一日志服务等工具和服务,协助租户完成数据作业加工和展示的全过程。其中统一日志服务主要实现全平台一站式日志集中采集和分析服务,协助提升运营运维效率。平台的整个监控体系也是建立在统一日志管理服务基础上的,租户的各种资源运行情况、各类公共服务的状态、租户自行部署各类应用状态,都要通过统一日志分析形成诊断结果。
(2)数据服务
数据服务主要包括数据资产管理和数据获取服务,数据资产管理指的是对固网、移动网络和宽带用户资料、明细话单、账单信息、关系圈信息、上网行为日志和位置信息等数据结构进行管理。数据获取服务主要是租户订阅和获取样本数据的服务过程,可以按照自定义用户群、特定账期、连续账期、用户群关联关系、全样本抽取比例等多个样本提取规则自助获取适配数据。
(3)标签库产品
标签库产品涵盖数据中心发布的公共标签产品、行业标签产品和租户自己定义的个性化标签产品,公共标签和行业标签支持标签树展示和标签权限管理,个性化标签除此之外还支持新建、删除、解析、匹配规则定义的能力。标签的内容包括标签的层级定义、取值范围定义、生命周期、标签使用建议等方面。
(4)数据框架
由于不同的租户业务需求不一样,对于各类计算资源的熟悉程度也不一样,他们对计算框架的选用有自己的偏爱,所以开放平台需要在框架层提供丰富、多样的大数据计算框架种类,用于满足海量数据计算、复杂逻辑关联、流式数据处理、高并发低时延海量数据查询、消息分发等多种场景,种类随发展需要还在不断增加。关系型数据库主要是Oracle和MySQL,一般处理关联程度比较高的结构化数据。MPP数据库主要是Impala和Vertica,Impala是一款SQL on Hadoop开源数据库,其最显著的特点是结合了Hadoop分布式文件系统(HDFS)分布式存储系统和SQL查询语句,它采用“列式存储”的设计,这使其成为了一款高速的分析型数据库;Vertica既可部署于传统的本地硬盘存储,也可部署在HDFS上,方便与Hadoop系统集成,根据用户查询特性优化存储结构和查询算法,进一步提升了查询性能(关联、分组等查询性能可再提高5~10倍),具有查询效率更高、运行更稳定、资源管理更方便等优势[2]。KV数据库有HBase和Redis,数据库采用HBase+Redis混搭架构可以实现毫秒级的数据接口服务。离线计算提供了Hive/MR/Spark等最为大家熟悉的计算框架。在数据流处理上提供了Flume+Kafka+Spark streaming (Storm)的混搭结构,一个完整的数据流处理过程包括数据采集、数据接入、流式计算、数据输出,采用Flume从各个采集点上实时采集数据,由于采集数据和处理数据速度不一定同步,采用Kafka作为消息中间件作为缓冲,数据处理环节由Spark streaming来完成,数据输出后进入持久化环节[3]。FTP环境主要是方便租户带入自有数据和带出结果数据(指向安全网关),FTP集群为3个层级结构,自上向下依次为负载均衡层、服务器群组层、存储共享层。集群对外提供VIP地址访问,负载均衡服务器根据内部规则合理指向实际的FTP服务器,存储则直接挂接HDFS。
(5)容器服务
能力开放平台提供Kuber nete s+ Docker的容器环境服务。容器服务一方面是为开放平台自身的门户、工具、组件、 API网关等提供部署环境,另一方面为租户自身开发的Web和Service提供部署环境。 Docker消除了线上线下的环境差异,保证了应用生命周期的环境一致性和标准化。支持开发人员使用镜像实现标准开发环境的构建,开发完成后通过封装完成环境和应用镜像分组封装,测试和运维人员可以直接通过部署软件镜像进行测试和发布,大大简化了持续集成、测试盒发布的过程[4]。
(6)动态资源调度
动态资源调度选用的是Mesosphere Open DC/OS,选用理由主要是社区支持能力强、版本迭代速度快、通用程度强。 Open DC/OS 是Mesosphere 2016年上半年发布的企业数据中心操作系统,主要是围绕开源的Apache Mesos附加了面向企业级的管理功能,核心内容分为两支——面向微服务治理的Marathon和通过Framework管理大数据类应用,能力开放平台主要用它来完成后者。目前DC/OS最新版是1.7,其中的Mesos版本是0.28.2。能力开放平台上Hadoop的资源调度是通过Myriad连接Mesos和YARN。通过两级调度体系,一方面提高了集群资源利用率,另一方面使跨数据中心的资源管理得以统一。在这种情况下,YARN的工作负载是运行在共享的集群上,相比独立的YARN集群来说更加动态和弹性。其他类的计算框架则主要是通过Framework的方式承载在Mesos之上。
3.3 基础资源层
基础资源层涵盖了x86机群、集中存储、小机、网络等设备。其中,x86机群设备分为两类,一类大存储服务器主要位于机房大数据区,主要用于组建Hadoop环境或者其他计算框架,另一类位于核心区,主要以虚拟机为主,用于满足部署集群接口机和各类应用环境的需要。集中存储设备和小机主要用于搭建Oracle 12C,12C数据库引入了多租户环境(multitenant environment),允许一个数据库容器(container database,CDB)承载多个可插拔数据库(pluggable database, PDB)。这种场景满足了开放平台中多租户对于关系型数据库的需求。
4 能力开放平台安全管理
整个平台部署在集团内部生产网上,设备主要部署在廊坊机房的大数据区和核心区,机房和机房之间、区与区之间都经过硬件防火墙隔离。相关用户访问开放平台全部通过集团统一接入平台登录,所有设备纳入4A管理。整个平台的建设完全遵循《中国联通数据服务安全管理办法》规范。
多租户在Hadoop权限集成部分已经比较完善,利用Kerberos与轻量目录访问协议(lightweight directory access protocol,LDAP)集成做用户权限管理,可以限制不同租户与群组的数据权限。在Hadoop YARN中的数据运算粒度细化到容器,实行运算的控制,其自身的资源池划分也很完善。对于不支持多租户的框架,一般 采用独立物理部署的方 式 满足要求[5]。
从管理角度,租户分为内部租户和外部租户,内部租户指的是直接服务于公司生产一线运营需要的租户,如收入保障系统租户、网络建设规划系统租户、经验分析系统租户、存量维系系统租户等。外部租户主要是指同中国联通有大数据合作的租户,如交通大数据合作租户、航空业租户、公安大数据合作租户等。对内租户一般是由公司信息化部、市场部、网运部等部门申请入驻。外部租户一般是由大数据合作方申请入驻。内外部租户安全要求是有差别的,外部租户一般只提供标签级数据服务,而个体明细数据、个体汇总数据、全体汇总数据一般不提供。外部租户需要的样本数据由大数据生产平台导入开放平台的时候要经过严格的脱敏环节,外部租户将数据带离开放平台环节要经过人工和系统双重审核。内部租户的安全要求则少很多,只有带离数据时人工审核一个环节。
数据安全总的原则是“中国联通用户敏感数据不出门”,未经安全审核的数据 “不出门”,不符合《中国联通数据服务安全管理办法》要求的数据“不出门”。数据由生产平台进入开放平台之前要对敏感数据进行一次脱敏操作,敏感数据主要包括但不限于用户名称、证件号码、住址、位置、码号信息等。租户空间内的数据要离开开放平台一般是通过API服务调用方式或者FTP方式,这两种方式都必须通过安全网关审核后才能输出。用户的私有数据可以通过租户FTP环境导入能力开放平台,但 数 据流向是单向的,只允许数据流入开放平台,不能够通过该路径导出数据。数据输出安全管理如图3所示。
图3 数据输出安全管理
5 能力开放平台典型应用场景
能力开放平台的一个典型应用场景就是租户利用中国联通提供的样本数据进行模型训练、模型部署并获取最终数据。步骤如图4所示。
图4 模型训练典型应用场景
(1)租户根据业务需要确定样本数据的种类、范围和规则,向生产服务平台提出获取样本数据服务申请。
(2)生产服务平台进行评估后,提取样本数据并推送到租户空间指定位置,租户据此建模和训练模型,最终形成模型成果。
(3)将模型成果分组封装,交由生产服务平台部署,并制定模型执行计划。
(4)将模型结果数据推送到租户空间指定位置,这个过程要经过安全审核和数据脱敏操作。
(5)租户根据结果数据进行数据分析、加工或者作为应用数据源。
6 结束语
大数据能力开放平台作为支撑内外部
大数据需求的核心平台经过近一年的建设已经初具规模,集群规模达到400节点;有效容量6 PB。入驻的内外部租户近40家。租户的业务涉及生产经营、信用评价、智能监控、城市规划、网络优化分析等各方面。相信能力开放平台作为联通大数据六大产品体系之一,将越来越体现它更为广阔的价值。
参考文献:
[1]范济安, 李卫, 魏进武. 电信运营商的大数据发展战略[J]. 信息通信技术, 2015(6): 5-12.
F AN J A, LI W, WEI J W. Development strategy of big data for telecom operators[J]. Information and Communications Technologies, 2015(6): 5-12.
[2]康旗, 陈文静, 王博. 数据开放与共享策略[R].[S.l.:s.n.], 2014: 1-36.
K ANG Q, CHEN W J, WANG B. Data open and sharing strategy[R]. [S.l.:s.n.], 2014: 1-36.
[3]魏进武, 靳淑娴, 张基恒, 等. 大数据关键技术及运营商落地建议[J]. 邮电设计技术, 2015(5): 9-12.
W EI J W, JIN S X, ZHANG J H, et al. Crucial techniques of big data and suggestions for telecom operators[J]. Designing Techniques of Posts and Telecommunications, 2015(5): 9-12.
[4]刘春, 邹海锋, 向勇. 大数据环境下电信数据服务能力开放研究[J]. 电信科学, 2014(3): 156-161.
LI U C, ZOU H F, XIANG Y. Research on telecom data service open ability under the environment of big data[J]. Telecommunications Science, 2014(3): 156-161.
[5] 马琳, 宋俊德, 宋美娜. 开放平台: 运营模式与技术架构研究综述[J]. 电信科学, 2012(6): 125-140.
M A L, SONG J D, SONG M N. Open platform: operation mode and technical architecture[J ]. Telecommunications Science, 2012(6): 125-140.