聚焦车联网数据质量,看车企亿级数据如何分钟级完成质检
随着应用场景的丰富性和广泛性,车联网数据的来源和类型越来越丰富,如何确保这些数据的准确性和完整性,成为了车企亟待解决的问题。亿信华辰作为数据治理领域的领军企业,凭借其在车联网数据治理领域的深厚积累,成功助力某知名车企实现了亿级数据的分钟级质检,大大提高了数据质量。本文将详细介绍该项目的背景、目标、实施过程和取得的成果,为其他企业在车联网数据治理方面提供有益的参考和启示。
某知名车企作为我国自主品牌车企,在受到激烈的市场竞争中积极研发新能源车型,同时积极响应国家数字化转型政策指引,通过全链条全方位的数字化能力提升,助力企业发展,构建数字化决策、营销、生产、供应链等场景。
本期项目聚焦企业“数字化转型”的基础数据治理需求问题:
1.元数据缺乏管理
企业内部有多个业务系统以及数仓,但缺乏元数据的统一管理,作为数据运营人员和开发人员不理解各系统元数据的业务含义,难以排摸各业务系统之间元数据的情况,以及血缘的分析。
2.数据缺乏统一视图
数据湖里的数据对于业务人员来说是黑盒子,一般都需要申请数据部门从数据库后台查询导出,数据获取成本比较高,也无法及时获取到数据。
3.数据质量差
车联网的数据大多来从车机端T-box中解析出来,数据日增量亿级别的,解析的数据是否准确关系到车辆应用服务的决策分析,数据质量问题的及时发现也会影响下游应用的开发等。
基于数据驱动的理念,车企急需建立一个数据资产管理平台,让车企数据资产开发、运维、治理、运营过程更安全、敏捷、精益、自动化、服务化和智能化。通过项目实现一站式端到端的数据资产开发与标准化管控治理,提高数据使用效率,降低数据使用成本。
亿信华辰为车企构建标准化、流程化、自动化、一体化的数据管理体系,可以有效确保数据架构合理、条理清晰、过程可控、完善数据来源,建立数据标准,提高数据质量,提升数据价值, 实现传统业务赋能、创新业务拓展。
系统业务架构
系统业务架构
基于亿信华辰睿治搭建数据治理平台架构于数据湖之上,采集车联网TSP平台、数据湖及中台层、应用层各系统及服务的元数据模型,构建标准、进行质量管控,实现资产化运营。核心模块包括:元数据、数据标准、数据质量、数据安全、数据资产以及数据集成和平台管理。
系统技术架构
系统技术架构
搭建大数据质检架构,将质检方案推送到Spark引擎,通过Spark引擎进行质量检查,并将质检结果直接写入Hbase集群;根据Hbase存储空间情况,定期将Hbase冷数据通过ETL抽取到数据屋Hive归档存储。
1.元数据管理
利用睿治元数据管理,接入了10+业务系统, 对接TSP三套车联网数据,采集离线的三套TSP数据模型,形成数据字典。定时元数据采集任务,实时更新对应的数据资产,采用EXCEL补录适配器进行数据补录,实现元数据属性的批量维护。定制血缘采集,采集调度系统生成的血缘关系在平台展示。截至目前已经运行有27个采集任务,涉及400+万元数据,包括6+万表,11+万视图。
2.数据标准管理
在整体治理过程中,立标准、理流程、清数据,结合国家、及行业标准如《电动汽车远程服务与管理系统技术规范》对每个数据域、数据实体、数据条目、数据项进行梳理和标准化,打磨出适合企业的数据标准。从车企实际情况出发,主要梳理了TSP股份的车辆驾驶行为数据标准约180条,为企业的数据建模和数仓的建设提供了标准依据。
3.数据质量管理
数据质量需要面对海量的车联网数据,利用数据屋现有的spark计算资源和Hbase数据库,搭建大数据质检架构。基于TSP商用车驾驶行为数据进行了质检,梳理了544条质检规则。在运行的质检任务约10多个,实现了亿级数据3分钟内能返回质检结果数据。同时,设置了定时质检任务,可及时地检查出错误数据方便业务部门进行数据整改,自动生成质检报告,以便对数据质量进行考核,制定对应的改进措施。
4.数据资产管理
数据湖里的数据之前对于业务人员来说是黑盒子,利用数据资产管理平台对TSP三套车联网数据进行数据资产目录划分梳理,采用类电商门户样式对车联网数据进行数据资产化呈现,业务人员可以进行资产申请及使用。同时按规范构建目录模型,定义数据资产的类目以及目录属性;整理好数据资产形成相应的资产门户,统一进行资产管理。
1.大数据量数据质检能力
对应智能网联海量数据的治理,高效利用车企现在大数据平台的集群能力,包括Hive集群、spark集群、hbase及Phoenix集群,通过分场景设置质检规则,数据全量、数据字段、重点数据域、常态化抽样质检等,实现数据质量的全面管控、质量报告、问题告警。可实现对日增量10亿级记录数TBOX车联网数据的质量稽核工作。
2.数据治理过程全程可视化
低代码数据治理平台,全程可视化配置、操作,提高项目实施效率、缩短工期;数据质检、整改、安全全流程管控,高效提升数据质量和数据安全;数据资产可自定义门户、类电商模式,为数据管理者、消费者提供多样化数据展示、管理、消费模式。
总的来说,通过此次项目建设,该车企解决了数据资产管理中释放数据价值过程中面临的诸多问题,以体系化的方式实现数据的可得、可用、好用,用较小的数据成本获得较大的数据收益,包括:全面掌握数据资产现状,提升数据质量,实现数据互联互通,提高数据获取效率,保障数据安全合规,数据价值持续释放。
END