查看原文
其他

腾讯赵建春:AI浪潮下的高效运维思考及实践

2017-11-22 拥抱AI的 高效运维

GOPS 全球运维大会暨首届金牌运维峰会于11月17日-18日在上海圆满举行。腾讯 SNG 助理总经理、GOPS 金牌讲师赵建春老师受邀出席大会,并带来精彩演讲《AI 浪潮下的高效运维思考与实践》。本文根据此演讲实录整理而成。



AI 是如何工作的?

 

抽丝剥茧,找出规律


运维工作中存在大量有规律的数据,要能准确预测数据的走势,我们要找到运维数据的规律,并建立模型。




AI和机器学习的分类


传统的异常指标分析方法有阀值、同比环比等,这些方法依靠大量的人力配置,随着数据量和指标量的增加,根本无法满足我们对数据精细化分析的要求。在智能运维时代,更多分析策略和手段被引入。




监督学习和样本标注

运维常常需要与很多业务KPI数据打交道,结合样本标注的有监督学习分析法对此类数据的异常识别效果显著。




损失函数及常见损失函数


损失函数是度量算法准确率的重要指标,损失函数越小,代表机器学习算法的精准度越高。



 

常见算法的工作机制

目前行业内流行的机器学习算法,绝大部分是源自于十大经典机器学习算法,而运用在智能运维领域,以分类算法居多。


 

NLP简介

在运维场景中,还有些需要与自然语言处理打交道的场景,下文介绍织云舆情监控实践中,会有NLP的案例。



AI 和运维工作结合的思考


 

对运维和AI技术结合点的思考


自动化运维是当下热门的话题,但是要真正意义上实现无人运维,与无人驾驶技术类似,还需要更多积累。但是基于有监督学习的数据分析和基于规则的运维自动化,则有很多可以突破的场景。




寻找与AI结合的运维场景


与腾讯的AI in All战略类似,智能运维的落地要找准场景,这样更能事半功倍的达到我们想要的效果。





分类算法应用


专业的人做专业的事,运维人员是运维领域的专家,可以利用自身丰富的运维工作经验,找到最合适的场景,并协同AI专家找到最恰当的算法,来解决该运维场景的分析难题。





运维和AI可能的结合点


通过腾讯SNG多年的运维经验,得出以下多个机器学习与运维结合的场景点,下面将以几个案例简述下我们已经取得的一些技术突破。


腾讯织云的一些实践案例




Monitor智能监控


织云Monitor监控平台,是基于时序数据的智能监控平台。使用125W个监控点形成的125W个视频对腾讯SNG的业务进行监控。面对的挑战是数据量级大、监控曲线各异、数据政府样板不平衡。

去除干扰,找到准确的异常数据点,对问题或故障进行告警,是运维团队迫切要解决的难题。




多维智能监控

应用运行的日志数据通常包含多个维度的信息,倘若运维能高效的分析这些多维度的数据,对快速识别服务异常和提升排障效率的帮助极大。





关联告警智能分析

随着分布式和微服务技术的普及,架构的复杂度决定了关联监控告警分析的复杂度,在腾讯SNG海量的运维挑战下,关联告警智能分析的实践经验如下。




智能运维客服


智能匹配FAQ库,机器人客服对常见问题给出最准确的答案,或给出相关度Top5的问题链接。在腾讯SNG的运维实践中,我们整理出常见的FAQ知识库,并结合NLP技术实现智能客服的功能。让运维人员可以免受小白问题的打扰,极大的提升了运维团队的工作效率。



 
基于文本投诉的舆情监控系统


织云舆情监控系统——天王星,是运维团队与开发、产品团队合作的产品,通过对用户反馈的自然语言的智能分析,对文本问题进行自动归类,准确率接近95%。并且,按问题类别实现分钟级告警的能力。


分享中大量腾讯SNG的运维实践经验与技术,即将在由赵建春老师带领的织云产品对外输出,敬请关注!

最后,借用腾讯SNG助理总经理赵建春老师的演讲结语:


理想的AI运维就像无人驾驶一样

似乎离我们还很远

但通过不断的进步

我们坚信

它, 一定会到来


PPT中干货满满,文中只截取了部分

欢迎大家扫码下载


《AI浪潮下的高效运维思考及实践》


更多大会PPT下载地址:

链接: https://pan.baidu.com/s/1jIDwZTO 

密码: egeq




 互联网技术精英交流沙龙 

2017/11/26(周日)下午2:30

腾讯SNG运营团队总监 聂鑫

PPmoney技术中心运维总监 郭为

源伞科技CEO 肖枭

将会为大家传授独家干货。



 

点击“阅读原文”,了解活动详情及报名


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存