支撑饿了么业务十倍提升的技术运维体系
在业务量持续陡升、创新不断、生态逐渐丰满的节奏中,扩容是常态,每个应用都可能成为系统的瓶颈。如何减少发现、定位时间,如何快节奏地完善技术运营体系?
饿了么技术运营部总监徐盎,在QCon上海2015上和我们分享了:
创业团队各种平台工具各显神通的困局突破;
自动化与业务高交付压力的矛盾;
立体化监控实践。
https://v.qq.com/txp/iframe/player.html?vid=h03213w098z&width=500&height=375&auto=0
徐盎,负责饿了么技术运营部,当前职责是降低业务飙升期间的事故次数,减少事故影响时间。
在公众号后台回复“饿”,即可下载幻灯片。
▽
延展阅读(点击标题):
SRE是什么鬼?——来自Google DevOps经验的落地实践
看豆瓣如何加固「监控」这条防线
QCon上海2016将于10月20~22日在上海宝华万豪酒店举行,届时将有一大波技术专家带来精彩演讲。
黄浩 Twitter高级工程师
黄浩目前主要负责Observability团队的监控报警系统。之前曾就职于百度和小米。
《Twitter的监控系统是如何处理十亿量级metrics的——Twitter Observability栈架构实践》
Twitter的Observability栈包含了核心的Timeseries Database,实时的监控报表系统,报警和自动故障恢复系统,以及分布式的日志分析和tracing系统。在Twitter,它是整个公司最关键的内部架构之一,是保证各个服务可用性的关键。目前整个监控报警系统每分钟处理25亿次的metrics写入,170万的复杂查询和25 000的报警规则。日志分析系统和tracing系统是工程师们平时追查问题的主要平台。在本演讲中,黄浩将向大家分享整个架构的设计,以及演进中的思考和经验。
马小鹏 阿里妈妈全景业务监控平台技术负责人
马小鹏于2013 年加入阿里巴巴,一直从事大规模系统日志分析及应用的研发。主导了直通车广告主报表平台、直通车实时报表存储选型、阿里妈妈全景监控平台的设计和研发。在数据应用建设方面保持持续的探索和思考,对大数据典型应用场景、统计算法模型的应用、时间序列的分析监测有丰富的经验。
《全景业务监控平台(Goldeneye)》
全景业务监控平台(Goldeneye)是阿里妈妈在业务监控方向上的一次大数据应用创新, 相比传统的同环比报警检测方式精确度更高。
本次演讲向大家介绍一种基于数据统计分析的业务监控检测方法,通过收集监测数据的样本,并使用智能检测算法模型,让程序自动对监控项指标的基准值、阈值做预测,在检测判断异常报警时使用规则组合和均值漂移算法,能精确地判断需要报警的异常点和变点。因为传统的同环比对比比较单调,在工作日和节假日对差异下存在大量的误报、漏报,在监测指标波动时不能有效地过滤掉不值得关注的疑似异常,大量的误报会淹没真正的异常报警。
我们从预测样本的选取、监控项报警检测灵敏度区分、异常持续状态次数、均值漂移过程等方面做了智能检测程序,可以避免人工维护的惰性和不可持续性带来的隐患。
在故障辅助定位方面,我们通过建立全链路tracing、上下游数据关联依赖、数据粒度逐层细分、诊断树模型等方式,缩小排查定位问题的范围,直接通过数据分析提供可参考的定位信息,在实际应用中可以降低故障带来的损失。
LinkedIn Kafka组高级软件工程师秦江杰,苏宁云商IT总部执行总裁助理乔新亮,声网CEO赵斌,阿里巴巴无线技术专家隐风,华为软件云平台资深架构师苗彩霞,LinkedIn业务分析经理赵晟等技术专家都将在QCon上海2016做分享,更多信息,可点击“阅读原文”,访问大会网站。现在报名,可享8折优惠。