BIG DATA电信与媒体市场调研公司Informa Telecoms & Media的调查结果显示,早在2013年,全球120家运营商中约有48%的运营商正在实施大数据业务。大数据业务成本平均占到运营商总IT预算的10%,并且在未来五年内将升至23%左右。
电信运营商在运营服务中积累了大量数据,既包括日志、账单、信令等结构化和半结构化数据,也会涉及到图片、文本、音频、视频等非结构化数据。据不完全统计,一个省一天的运营商数据量可达到PB级。
而通过对海量数据资源的挖掘,可支撑运营商快速响应需求,实现敏捷运营,以及推动数字化转型。例如,利用大数据对DPI(Deep Packet Inspection,基于数据包的深度检测)等数据进行分析,可获取客户的行为偏好,实现客户精准营销。
01河南移动的实践
据媒体报道,早在2018年7月,河南移动4G用户数量已突破4000万,在河南运营商市场处于领先地位。与此同时,其家庭宽带客户接近900万,建设4G基站10万个;物联网连接数接近2000万(新闻链接:https://news.dahe.cn/2018/07-03/336954.html ); 2019年,河南移动全面启动了5G建设。 图片来源网络为了更加精细化大数据运营,管理和监控网络流量数据,河南移动部署了统一DPI系统实现海量日志数据处理,包括支撑集团和省层面的网络运行、企业信息、市场营销、网信安全、特殊通信等五大类应用,如移动感知分析、移动上网日志留存、信息推送、流量轨迹查询、IDC/ISP信安系统等。统一DPI系统在该业务的数据处理上,客户过去采用MR+HiveSQL+HDFS+Flum传统架构进行支撑。这一解决方案导致:在应用端,无法实现多种数据融合分析,多并发能力不足查询效率不高;在存储端,计算存储紧耦合不够弹性,出现存储访问瓶颈,无法支持海量数据的按需扩展;以及更复杂的运维,更高的建设成本,逐渐难以满足海量日志分析的需求。为了解决上述问题,客户在数据共享层采用了HashData+XEOS+gdfdists新架构,为客户提供云原生数据仓库解决方案,相对于原Hadoop方案,可减少60%的集群硬件和70%的运维投入。数据共享层解决方案1、AAA解析模块:接受Radius原始流量解析后发送至HashData平台;2、Web服务器:负责策略生成、策略下发、数据结果展现;3、HashData:数据导入、数据清洗、数据查询和数据分发(数据生成与Td上报程序);4、XEOS:对接HashData平台,海量日志数据存储。在新的解决方案中,XEOS替代原先HDFS实现PB级数据在线管理,同时提供冷热数据分层、索引数据多副本、日志数据采用纠删码(EC纠删码12+3,得盘率80%)等策略,保障整体方案的更优性价比。目前,客户已采购1.5PB存储容量…
02现有的数据应用问题
今天,企业数据呈指数级增长,基于海量数据的分析、挖掘数据价值成为运营商和企业用户的常态化选择。然而数据环境的诸多变化,驱动了数据应用的新需求产生:1、全量数据处理:统一系统内处理内外部的海量数据,数据类型复杂如结构化数据、半结构化数据;2、高并发响应:更多部门、角色甚至机器参与到数据访问中,动态的支持高并发响应;3、多维实时分析:将各维度的数据关联进行数据分析挖掘,没有大量时间做预处理,裸数据实时响应;4、跨平台访问:数据访问环境差异,公有云、私有云以及混合云等多种场景下,跨平台数据灵活访问;5、云技术融合:大数据和云计算技术飞速发展,如何充分利用云的优势让数据发挥更大价值亟待解决。面对数据应用的上述新需求,现有的解决方案面临着以下问题:1、共享存储数据仓库扩展性差
存储访问瓶颈
无法支持海量数据
一体机价格昂贵
2、MPP数据仓库无法支持多种数据类型
大数据量性能级稳定性下降
扩容数据重分布难度大过程冗长
无法合理规划以及灵活利用存储和计算资源
无法支持高并发
3、Hadoop及NoSQL方案不完全支持SQL
计算存储紧耦合不够弹性
配置、调优、管理、维护复杂
学习成本高、学习曲线陡峭
效率低下,高并发能力有限
03存算分离的云原生数仓
鉴于此,HashData(酷克数据)研发设计了新一代云原生数据仓库架构。HashData企业级云数据仓库是一个高性能、完全托管的PB级数据仓库服务,融合MPP高效引擎、云计算的弹性以及大数据平台综合数据处理能力三方特性。全面兼容PostgreSQL协议以及SQL 2008语法标准,对外提供标准的JDBC和ODBC接口,无缝集成主流ETL和BI工具。 新一代云原生数据仓库架构具有以下特点:在基于云原生的计算和存储分离数据仓库方案构建中,独立扩展的计算和存储更加灵活,同时可显著降低成本。HashData与XSKY建立了合作伙伴关系,利用XSKY XEOS对象存储与HashData企业级云数据仓库形成统一解决方案,并具有以下优势: