深度解析中国信通院电信场景分析型数据库性能测试平台(二)
第一部分回顾:深度解析中国信通院电信场景分析型数据库性能测试平台(一)
3 电信场景设计
分析型数据库测试场景的设计是一个复杂且重要的过程。测试场景设计的重心是代表性和真实性。对于表结构,数据分布,数据量,查询语句这四个方面,测试场景必须尽可能贴合行业大多数运营商的实际业务场景。如果测试场景与实际情况相去甚远,不仅不能对被测产品进行一个客观的评价,反而会对选型进行误导,造成巨大损失。
场景的设计由中国信通院和联通大数据共同完成,自2019年起,经过多个版本的不断迭代和电信头部企业的专家评审,最终于2020年底对外发布。测试场景采用电信核心业务中的用户标签加工场景。集中了用户从生活到工作、从通信到互联网的数据,覆盖24小时的位置、行为信息。场景具有存储数据量大,维度广,覆盖面广等特点,能够充分的反映电信场景下主体用户的特征。
3.1表设计与数据生成
经过对实际电信场景的脱敏裁剪,最终选择其中的20张作为测试用表。表中字段数量最小为10,最大为130,平均字段数量在80左右,覆盖客户域、产品域、业务使用域、账务域、位置和上网域6大主题域数据,每个字段的数据生成分布参考实际领域的数据分布。
图3:电信场景表结构展示
测试场景中基准表的行数为3亿左右,累计关联的子表数据生成总量为20TB,具有大数据量,宽表,多维的特点。
3.2 测试语句设计
测试语句的设计要点是确保语句的集合能覆盖整个电信场景的数据加工流程:
1)数据加工模块完成业务表的创建和数据初始化。
2)数据加工模块根据场景模型和初始数据,设计查询SQL、绑定分析聚合业务逻辑、规则策略等,最终加工生成结果。
3)数据加工模块将生成的推荐结果同步到支持高并发查询的分布式数据存储系统中。
4)业务模块发起查询需求,传入查询条件到数据服务模块,从数据服务层获取到最终的查询结果。
图4:电信领域数据加工流程
经过考察点合并和语句筛选,在其中抽取归纳出20条SQL用例作为测试用语句。这些SQL包含统计查询语句、报表查询、特定条件查询等。覆盖电信业务中运营,业务及管理方面:
图5:电信场景测试用SQL语句
数据加工的复杂性使得测试用SQL无可避免地包含一些例如多维度上卷或下钻、多表聚合等复杂查询操作。这些操作需要在测试限定的时间内完成,极大地提升了测试门槛,起到重要的筛选效果。
4. 结语
数据库测试平台的研发是一个复杂的过程,需要研发人员和场景设计人员的共同努力。另一个重要的参与方就是平台的用户,从2020年底至今,共有10余家企业参与了该平台的使用,其中电信集成采用了该平台进行选型工作。各方对该平台提出的意见和建议极大地帮助了平台功能的完善,为平台后续的发展提供了宝贵的思路。也希望更多的厂商能够使用该平台,助力国产数据库行业的发展。
有兴趣持续探讨相关话题的,请联系
王超伦 wangchaolun@caict.ac.cn
中国通信标准化协会大数据技术标准推进委员会(CCSA TC601,简称:数标委/BDC),旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。欢迎加入我们的行列!
入会咨询:张德民 15313961683
zhangdemin@caictyds.cn