其他
解决方案 | 金融微服务场景下如何提升运维可观测性?
本文源自某金融客户的实践案例云原生环境下金融业务的微服务化改造以及分布式架构的部署,使得业务与开发部门的关联更为紧密,传统运维监控已满足不了业务运营需求,亟需建设具备可观测性的运维体系。行业痛点随着金融行业数字化转型战略实践工作的深化推进,数字化业务快速发展,日志类型和日志量急速增加,但各类日志数据(软硬件)分散且繁杂,缺乏统一的全生命周期管理和海量日志的监控分析处理能力,给业务监控告警、日志搜索分析、审计溯源产生了一定制约。同时在云原生的环境中,随着微服务化进程的加快,很多业务系统微服务化后带来了复杂的运维排障屏障。01生产环境业务级异常感知滞后,影响范围往往被放大,降低服务品质生产故障定位处理缺少快速有效的辅助工具,影响业务连续性。02各系统日志数据分散存储,日志路径、格式、打印规范等各有差异,增加问题排查难度技术迭代演进(微服务化、容器化等),传统运维方式支撑不足。03国家网络安全法要求及行业监管机构要求对日志进行统一的采集、存储、分析、可视化等,配合审计需实现异常行为快速提取与回溯。建设目标以云原生可观测性建设为主目标,拉通各类基础监控、数据采集、日志等分析工具的数据孤岛,以云原生领域中对业务场景的需求为驱动,通过技术手段实现业务运营全过程的透明化,提升业务连续性保障,提升服务开发上线效率,提高IT服务质量等,在运维能力提升的同时,亦提升用户体验。解决方案本方案主要通过协助金融客户完善管理规范制度、建设统一日志平台、整合观测数据三个关键步骤助力可观测性提升。完善管理制度规范技术平台为管理服务,要做好技术平台,就需要首先梳理、完善管理规范制度,我司与行方客户一起,对现有的客户规范、业内规范进行调研、条目梳理并进行日志管理规范的总结及能力应用规划。如对业务日志的规范化进行了4层的丰富度说明,并根据不同的级别梳理了不同的规范度、可以实现的不同效果、达到的不同能力级别,通过规范的梳理,可以更好的评估客户现有不同业务系统及其日志的规范化程度,并根据客户数字化推进的阶段,反推不同业务系统的下一步管理要求。建设统一日志平台对数字化转型的提升,管理制度的规范化是道,具体实现,还需要有术的支持,我们这里的术就是基于擎创的日志管理平台作为基础底座,通过整合监控及调用链数据,以可观测性提升为核心的统一日志平台。平台架构主要分4层:最底层为数据源层及接入层。日志数据、监控数据、调用链数据都归为数据源,对不同的数据源,通过不同的采集技术进行纳管,如agent,syslog、API等。在数据处理层,采用数据中台进行数据缓冲、计算、存储,把原始的最基础的数据通过规范化、清洗、聚合计算、数据关联等方式实现从数据到业务运行状态观测的转变。在应用层,通过前端进行交互界面给运维使用方以直观、高效的操作体验,在后端及中间件层,对运行状态观测数据进行缓冲高效查询及部分业务逻辑处理。整合观测数据数据源的丰富度及质量直接决定了可观测性的挖掘深度,在现有的环境中,我们接入了操作系统、数据库、中间件、硬件设备、容器及应用这些类型的日志及监控数据,在链路层,通过skywalking接入了多套业务系统的链路数据,同时在日志中,根据客户规范,增加的对应的TID标示,用于日志及链路数据的深度结合。解决方案亮点实现业务日志统一查询能够全局性覆盖主要业务系统,实现日志的统一快速高效的查询,并通过部分日志的合并、解析、分析,实现日志的更高效利用。在这个基础上实现更多贴合实际生产环境的功能开发,如二次查询、全链路排障、数据湖冷备数据查询、上下文行数自动滚动、日志内xmljson段格式化、用户使用统计分析等功能。关注业务系统运行状态及告警从日志角度,对业务系统进行统计分析,得到业务系统的整体概览状态,方便快速了解系统运行状态。实现业务日志全链路串联根据现有的系统环境及业务场景,打通统一日志系统与Skywalking的数据,通过中间层处理,用TID在日志及Skywalking做上下文关联,通过全局流水号(SEQ_NO)、业务流水号或任意内容搜索,得到业务系统详细日志及链路信息,实现了排障一体化解决。同时,可以直观方便的了解业务系统中业务拓扑及单笔交易的链路拓扑,为排障提供了非常方便的工具,丰富了排障场景,且易于使用。整合监控内容运维场景中除了查询日志及trace信息,经常还需要核对到监控平台查看监控数据,通过整合监控数据,减少运维场景下的不同平台跳转,提升运维效率。数据湖冷备数据查询对接原有数据湖,实现数据的双写,一份用于日常查询排障使用,到存储容量限制后,定期滚动删除;一份存储于数据湖内,长期保存,用于审计场景下使用。同时,实现冷备数据的在线查询,以及更高的压缩率及接近热数据查询的查询速度。在云原生时代下,金融业务发展迅速,数字化转型的脚步日益加快。该方案针对企业在进行云端微服务化改造时,面临传统监控无法高度细化分析与关联数据等问题,提出从日志维度出发建设可观测运维体系的方法并有效落地,从而提升金融企业用户数据处理和分析能力的精细程度,辅助用户挖掘数据深层价值,全面提升业务运营的连续性与稳定性。擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。行业龙头客户的共同选择