LinkedIn百亿级实时日志分析系统架构演进
及时有效地搜索日志是 SRE 日常工作的重要内容。LinkedIn 从使用 Splunk 到建立基于 ES 和 kafka 的日志分发、索引系统,为 SRE 提供了近似实时的搜索平台来检索超过 400 多个子系统的日志。在 QCon 上海 2016 的演讲中,LinkedIn SRE 团队高级技术经理李虓和大家分享了这套系统从无到有的一些技术架构经验。
演讲视频
https://v.qq.com/txp/iframe/player.html?vid=r03603ivp2m&width=500&height=375&auto=0
作者介绍
李虓(Li Xiao),LinkedIn SRE 团队高级技术经理。带领 SRE 团队负责 LinkedIn 在线支付系统、高级会员功能、公共 API 接口、视频上传和分享等系统的运维,同时负责搭建 LinkedIn 生产环境日志检索系统、Rest.Li 框架性能优化等跨功能项目。在加入 LinkedIn 之前有着丰富的 Java 开发和项目管理经验。四年前加入 LinkedIn SRE 团队,致力于让开发和运维团队紧密配合,在新功能上线和产品稳定性之间找到最佳平衡。
幻灯片
在公众号后台回复“日志”,即可下载完整幻灯片。
延展阅读:
每一次相遇都是久别重逢。时隔一年,QCon 北京站将于 2017 年 4 月 16—18 日在北京国家会议中心华丽归来。20+ 热点专题出炉,涵盖区块链、VR、TensorFlow、深度学习等潮流技术,及研发安全、移动专项、智能运维、业务架构等一手实践。国内外技术专家共襄盛举,点击“阅读原文”,1 月 1 日前报名,尽享 7 折特惠。
演讲预告:《智能运维里的时间序列:预测、异常检测和根源分析》
AppDynamics 首席数据科学家 赵宇辰
在大量的运维数据里,最不可忽视的就是各种 KPI、指标数据,它们在数学上都可以被表达为时间序列的形式。在一个大型软件系统里,往往每分钟能产生百万级的时间序列,如何从这些海量数据里发现规律,指导运维并将其智能化,成为了下一代运维中最重要的环节之一。
本次演讲,将从机器学习的角度分享运维里指标的三大问题:预测、异常检测和根源分析。同时,运维系统里的每个指标并非独立存在,我们将阐述如何能从多 KPI 中挖掘它们的关联去更好地指导系统监控。
更多信息请点击“阅读原文”关注 QCon 北京 2017。