查看原文
其他

观点分享 | 腾讯云高级工程师张加浪: AI浪潮下海量业务的智能监控

9月28日,由中国人工智能产业发展联盟(以下简称“AIIA”或“联盟”)和中国信息通信研究院(以下简称“信通院”)联合举办的第二次“人工智能研发运营一体化(MLOps)技术沙龙”以腾讯会议和小鹅通直播的方式同步进行,吸引了来自互联网、软件、通信、制造等多个行业近500名专家的关注。腾讯云高级工程师张加浪受邀参会,分享的主题是“AI浪潮下海量业务的智能监控”。


以下为演讲实录:


AIOps利用了AI技术对DevOps工具和服务进行增强,MLOps借鉴了DevOps的理念对机器学习全生命周期进行管理。MLOps可以更好的帮助AIOps落地应用。张加浪旨在站在“用户方”的视角,分享腾讯在构建AIOps体系时了解到的相关需求,进而为MLOps的工作提供一些思路。


01
 AIOps的现状及挑战


运维经历了五个阶段:依赖运维人员的个人知识及经验的手工运维;工具标准化管理的流程化运维;事件与流程关联、运维数据可视化的自动化运维;工具全链路打通、跨团队线上合作的DevOps;单一场景智能化、目标为机器决策的AIOps。AIOps的概念出现在2016年,旨在基于自动化和数据化运维,引入相关算法进行智能化的识别。AIOps的能力框架构成如图所示,覆盖了人工智能的全生命周期,关注了数据、算法、模型、样本和场景反馈的迭代升级。



AIOps常见的场景可以分为三类:效率提升、质量保障和成本优化。效率提升是指对服务的维护部署进行效率提升,例如智能变更、智能问答、智能决策和容量预测;质量保障是指在业务过程中通过算法或数据进行业务质量的保障,包括异常检测、故障诊断、故障预测和故障自愈;成本优化是指资源的预测评估。



使用传统的人工分析和自动化分析进行业务监控往往会碰到一些瓶颈,主要包括服务规模、业务特性和人员合作三类。正常情况下,业务规模在几十至上百个,每个业务在上线过程中会不断迭代性能或特性,在每个项目里还会经常进行人员调整和更换。


在此过程中:

(1)庞大的业务规模会为每个服务设定和调整告警阈值带来巨大的维护和支持成本;

(2)由于业务不断迭代、业务质量的观测点发生变化,不及时更改阈值会带来模型质量差的问题;

(3)流程中涉及到一系列复杂操作,包括:对现有版本服务监控、确定版本是否需要回滚、出现告警后如何响应等。

以上在复杂场景中发生的质量或效果不好的问题,AIOps可以通过结合AI或大数据进行解决,同时提升并优化了监控质量。



针对以上情况,腾讯构建了智能监控新方案,一方面使用有监督和无监督学习的机器学习进行处理,一方面通过大数据对实际数据或偏日志型的多维数据进行处理,从而缓解传统阈值监控存在的痛点。


02
智能监控的应用场景


智能监控的实际场景可以分为以下五类:智能检测告警、智能多维根因分析、告警关联、智能离群监控和告警分级。



智能检测告警的核心是波动的检测。当数据波动平稳时认为数据正常,当数据波动超出阈值范围进行告警。如果数据持续平稳,则需要手动进行阈值调整。通过3-Sigma、EWMA、XGBoost等算法可以预测时序曲线波动是否会出现异常,从而反推是否需要告警。


智能多维根因分析是指对发现的问题进行分析,判断该现象的出现由哪些因素引起、该现象的出现会影响哪些方面。实现横向智能多维根因分析主要通过决策树算法,引入相对熵和Pearson系数则可以提升分析结果的质量。


告警时往往会遇到告警质量差的问题,究其原因在于有效的告警信息会被大量告警信息而埋没。为此,腾讯引入了机器学习算法进行分析,包括Pearson和FPGrowth两种方法。Pearson方法是指对曲线相似的部分进行整合;FPGrowth则是指对相似的告警进行合并。通过两种方法的实施,有效减少了70%-80%的无效告警,突出了真正需要关注的问题。


智能离群监控是指通过数据处理加工,计算出离群的实际曲线,使用了Fisher–Yates shuffle和LOF离群算法,突出了离群对象。


告警分级是指对严重告警的优先处理。传统型告警分级是通过阈值设定区分任务的严重性,但其效果质量和长期的可迭代性难以保证。因此腾讯结合了异常波动幅度、告警历史频度和关注实际告警反馈三类信息,整合成全新告警级别推荐给用户。


03
 MLOps的不足与诉求


张加浪从AI项目管理角度,展示了腾讯云在样本打标、项目CI、项目CD和项目监控的成果,并指出了目前在优化方面仍旧存在不足。目前对MLOps的诉求包括:如何形成基于算法模型的管理模式?如何解决项目效果量化对比效果差和样本及项目优化目标零散的问题?如何解决AI算法复用性差、项目迭代耦合和工程算法并存带来的项目成本高昂的问题?


 

往期回顾
01

中国信通院2021年智能语音第二轮服务和应用评测正式启动

02

AIIA正式发布《电信领域联邦学习技术应用白皮书》

03

AIIA:面向传媒应用领域的AI芯片评估规范发布



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存