查看原文
其他

MTSC2020 | 手淘AIOPS实战-消息全链路智能监控

吾铭、豆豆 淘系技术 2021-08-11

MTSC2020中国互联网测试开发大会深圳站,于 2020 年 11 月 20 日至 21 日在深圳宝立方国际酒店召开,为中国质量保证行业奉上一场为期 2 天的技术盛宴,500+ 来自世界各地的测试精英们汇聚一堂探讨交流。来自阿里巴巴淘系技术部的董福铭(吾铭)、黄俊(豆豆)在主会场分享议题《手淘AIOPS实战-消息全链路智能监控》,现场反响非常热烈。


中国互联网测试开发大会 Mobile Testing Summit China(简称 MTSC)是由国内最大的移动测试技术社区 TesterHome 发起的软件测试行业技术会议,大会以“软件质量保障体系和测试研发技术交流”为主要目的。MTSC 大会于 2015 年举办第一届至今,已成功举办了六届,共有 1000+ 家企业,10000+ 测试工程师、测试经理、CTO 参会,受到了全行业的广泛关注,是中国互联网质量保证行业的顶级会议。


★  议题简介:


《手淘AIOPS实战-消息全链路智能监控》介绍如何通过SDK实现应用内链路日志聚合、采样率控制、统一降级开关等功能,打通客户端到服务端链路,实现IM端到端秒级排查。通过实时计算实现消息核心指标到达率/时延的实时监控。使用AI检测算法,替代传统的规则监控方案,解决规则告警准确率低、时效性低、规则配置复杂与耗费人力等诸多问题。通过NLP进行舆情智能分类,并结合全链路数据对预警问题进行分析定位,打造全链路智能监控排查平台。


★  业界点评:


艾辉(融360高级技术经理、《机器学习测试入门与实践》作者) :


  • 手淘AIOps实战案例的技术设计及应用效果让人印象深刻!

  • 区别于一般的链路监控,该方案用多种算法检测代替规则检测,在准确率、召回率等方面都有大幅提升。

  • Holmes异常检测平台更是实现了算法模型在链路异常检测场景的工程产品化。

  • 很值得业界同行朋友们学习借鉴。


孔令云(美柚测试总监):


手淘AIOps利用AI技术,在消息全链路监测中实现了百亿级消息数据的实时监控和异常检测,极大提高了消息到达率、及时性,为消息链路质量保障提供了坚实的技术支撑,同时也为行业树立了AI测试应用的光明灯塔。



前言



手淘App作为双十一最核心的消费者购物阵地,其中必然离不开第三个Tab页-消息,消息的价值在于打造新零售业务商业连接,帮助消费者进消费决策。每天消费者和商家沟通商品相关的价格、质量和型号以及款式和各种交易咨询及售后服务等;来自天南地北的淘友齐聚在直播间和群聊,不停的点赞,分享和盖楼;每天消费者接收着品牌号、官方号以及系统物流通知,平台营销活动通知,不想错过每一有价值的咨询和活动优惠;最近几年大促有很多新颖的互动玩法,从“战队群”到“亲情号”再到今年的“养猫互助游戏”,都离不开消息中台的支撑,同时也给消息稳定性保障带来了压力和挑战,消息质量团队在传统保障策略的基础上,在智能化监控领域做一些探索和尝试。



消息业务场景及系统架构



消息业务场景包含了社交互动、 客服沟通、交易提醒、优惠通知、品牌资讯等属性,核心目标是打造新零售业务商业连接,帮助消费者进消费决策;



为了支撑上面的业务场景,整个消息系统链路比较复杂,同时IM领域和其他业务最大的不同,它是端到端的链路,同时又要维护长连通道,消息从客户端上行链路到IM服务端分布式系统,然后再通过长连通道,下发到客户端下行链路,最终在端侧进行消息上屏;




消息全链路稳定性保障



随着业务的不断发展,消息系统也在不端进行架构升级,19年之前,我们面临一些问题,主要集中在链路长、排查效率低、没有端到端排查能力,系统监控分散,实时性差等;



结合着这些问题,我们就打造了全链路日志SDK,通过AOP的方式,不侵入业务代码,作为基础能力,同是融合了Metrics、Tracing、Logging三个唯独,进而实现全链路日志方案:



整体效果:打造手淘消息全链路智能监控排查系统,赋能消息及上层业务,实现业务指标实时监控、舆情智能分析、端到端全链路自动排查,有效缩短了线上问题从发现到定位的时间。提升排查效率达70%以上;日志量每天减少数百亿条;日志存储资源和采集资源减少50%以上;累计服务多个APP;问题排查次数达200W+;





智能监控在全链路体系实践经验



▐  传统监控的现状和痛点



▐  智能监控-特点&优势


  • 特点:

    • 学习历史数据,分析当前指标曲线趋势是否异常

    • 基于以往数据,进行预测未来指标走势

  • 优势:

    • 算法检测代替规则检测

    • 告警准确率高

    • 更早发现异常情况

    • 可适应业务发展带来的趋势变化



▐  智能监控系统架构


基于AI算法的异常检测,具有智能化、轻量级、易接入、可扩展特点,算法检测替代传统的规则监控解决准确率低、时效性低、配置复杂等问题。核心模块覆盖了数据打标、训练、模型生成等,特征方面包含了统计特征、分类特征、拟合特征等提取方法,算法方面主要涵盖了多种检测算法和预测算法。



▐  算法检测效果



▐  智能舆情全链路特点


  • CNN文本分类+DBScan相似算法,精细聚类舆情;

  • 舆情问题结合全链路排查体系,智能定位原因,提高排查效率;

  • 分钟级定时巡检预警,结合AI异常检测,避免问题故障。


▐  智能舆情全链路体系架构



▐  智能舆情全链路实践效果


【舆情聚类】应用文本聚类、NLP算法,1w+文本聚类时间1min内

【预警效果】预警有效率95%以上,问题排查率70%

【预警问题】有效预警线上问题50+,规避线上故障

【算法调用】日均调用600次+

【接入业务】手淘、千牛、淘宝特价版等




Holmes异常检测平台



基于AI算法的异常检测平台-Holmes,具备智能化、轻量级、易接入、可扩展特点。


使用异常检测算法替代传统的规则监控,解决准确率低、时效性低、配置复杂等问题。



只需要简单的4步配置,即可完成指标接入:



在实时检测方面,集成了无监督学习和有监督学习,主要运用了高斯分布、STL、孤立森林、XGBoost等;


在数据预测方面,集成了LSTM、Prophet、三次指数平滑等。



未来展望



Holmes异常检测平台是淘系技术质量团队打造,在智能化测试领域的一次实践,未来我们希望利用AI算法实现业务全方位智能化监控和问题定位。覆盖更多的数据类型、打造通用的算法模型。同时我们也在全链路监控排查、智能舆情处理等多方面进行探索,期待后续跟大家分享。


▐  研究方向:


【非结构化日志】【风季数据】【选举策略】【智能舆情】【根因分析】


▐  研究目标:


1、监控数据:时序指标数据(实时/离线)、业务日志数据(客户端/服务端)、用户舆情数据

2、检测模型:模型需要通用化,具有预测基线的能力,同时提供丰富算法库涵盖多种检测算法

3、算法指标:实时性ms级别响应、正确率>95%、覆盖率>90%,召回率>95%

4、发布计划:目前已在阿里集团内开放,希望后面能在业界开放使用



MTSC2020中国互联网测试开发大会深圳站现场



淘系技术部-质量团队-诚招英才

负责保障整个手淘、天猫主战的业务质量,这里有丰富业务场景和技术挑战,我们将持续建设及完善这个那个淘系稳定性、提升用户体验。如果您有兴趣可讲简历发至:fuming.dfm@alibaba-inc.com 期待您的加入!


✿  拓展阅读


作者|吾铭、豆豆

编辑|橙子君

出品|阿里巴巴新零售淘系技术

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存