其他
打通源码!高效定位代码问题
作 者 | 虎仔
文章来源 | 阿里巴巴云效团队
大家好,我叫胡飞虎,花名虎仔,目前负责云效旗下产品 Codeup 代码托管的设计与开发。代码作为企业最核心的数据资产,除了被构建、部署之外还有更大的价值。为了帮助企业和团队挖掘更多源代码价值以赋能日常代码研发、运维等工作,云效代码团队在大数据和智能化方向进行了一系列的探索和实践(例如代码搜索与推荐),本文主要介绍我们如何通过直接打通源代码来提高研发与运维效率。
随着微服务架构的流行,一个业务流程需要多个微服务共同完成。一旦出现问题,运维人员在面对数量多、调用链路复杂的情况下,很难快速锁定导致问题发生的罪魁祸首:代码。
为了提高排查效率,目前常见的解决方案是:链路跟踪+日志分析工具相结合。即通过链路跟踪产品(如阿里云的Tracing Analysis)可视化还原业务执行过程的系统调用链路的拓扑、接口请求量与耗时等数据,再配合日志分析工具(如阿里云的SLS)进一步分析链路中某个系统的详细日志从而锁定出问题的大致坐标。
理想情况是开发人员能够自助分析并解决联调过程中遇到的问题,但实际情况是一旦被依赖的服务执行返回失败时测试流程就终止了,必须要等到下游服务提供方的同事协助排查才能解决;尤其当遇到在紧急场景时,更是讲究一个“快”字,如果过于依赖排查人员对代码的熟悉程度以及必须下载到本地电脑才能分析的诸多限制,势必会降低问题排查的效率。
究其根源,链路跟踪+日志分析工具的排查模式存在两个待解的问题:
无法直接锁定有问题的源码,现有的定位方式只能查找到问题发生的现场信息(如发生的时间、上下文数据和一些描述信息),而缺少产生问题的凶手信息,即源代码数据;
限制条件多,首先需要排查人员事前知道问题可能涉及的代码库;其次代码库必须提前下载到本地PC电脑才能查看分析,如果身边没有电脑则无法进行下去。
打通源码,解决最后一公里
实际操作指南
图1 “查看源码”初始化入口
图2 初始设置完成效果图
图3 代码查询交互
图4 关联查询的代码片段
图5 Codeup托管的代码详情
日常联调场景中能够通过日志记录搜索问题代码,自助解决全链路调试过程中出现的一些类似参数校验,运行时异常等简单的代码问题。
在线应急场景下,能够通过一个traceID轻松从链路中定位问题的系统,再从系统的日志中查询详细日志数据,最后通过日志数据中记录的代码摘要快速搜索查询源码内容。整个过程一键完成,只要有相应的日志和代码库权限即可,即使没有PC电脑,移动设备一样能够搞定。