查看原文
其他

今日头条的服务化探索和实践历程

2016-06-27 夏绪宏 QCon

https://v.qq.com/txp/iframe/player.html?vid=c0308epl7jk&width=500&height=375&auto=0


随着今日头条业务的飞速发展,架构和基础设施的挑战越来越大,在性能及其优化、稳定性、可运维性、可扩展性、开发迭代速度等方面开始暴露出问题,Mono 架构无法承担大流量,频繁迭代等带来的架构需求。本演讲主要分享今日头条在进行业务和架构重构,系统拆分,将系统从 Mono 架构迁移到微服务架构的历程,同时介绍架构设计思路、基础设施构建以及相关技术栈的选型思考等。


作者介绍


夏绪宏,专注于高性能大规模 Web 架构,云计算、性能优化等方向,对编程语言设计实现也很感兴趣。目前是 PHP 官方开发组成员,乐于分享,著有《TIPI:深入理解 PHP 内核》,填补了 PHP 内部实现细节相关的资料的欠缺。同时也是 HHVM 项目贡献者。


2009 开始加入百度。先后从事大规模 IDC 自运维设施建设,云计算平台的架构设计,构建了百度最大规模的私有云计算平台,接入大部分社区产品线。同期负责贴吧的业务性能优化,对无线业务,PC,服务端均做了大量的优化工作,并构建了服务端性能分析平台,系统化的解决性能优化问题。期间还负责百度通用RPC基础中间层的设计实现和优化。2015 年加入今日头条负责基础设施,系统架构设计和优化,解决大流量高并发下的系统性能、可靠性和运维效率等方面的问题。

幻灯片


在公众号后台回复“今日头条”,即可下载幻灯片。



QCon 上海 2016 将于10月20~22日在上海宝华万豪酒店举行。


Twitter高级工程师黄浩届时将分享《Twitter的监控系统是如何处理十亿量级metrics的》。


Twitter的Observability Stack包含了核心的Timeseries Database、实时的监控报表系统、报警和自动故障恢复系统,以及分布式的日志分析和tracing系统。在Twitter,它是整个公司最关键的内部架构之一,是保证各个服务可用性的关键。目前整个监控报警系统每分钟处理25亿次的metrics写入,170万的复杂查询和25,000次的报警规则。日志分析系统和tracing系统是工程师们平时追查问题的主要平台。在本演讲中,黄浩将向大家分享整个架构的设计与演进中的思考和经验。


360高级工程师、资深顾问魏自立将分享《如何打造一个百万亿级的日志搜索引擎:Poseidon》。


Poseidon系统是一个日志搜索平台,可以在百万亿条、100PB大小的日志数据中快速分析和检索。360公司是一家安全公司,在追踪APT(高级持续威胁)事件,经常需要在海量的历史日志数据中检索某些信息,例如某个恶意样本在某个时间段内的活动情况。在Poseidon系统出现之前,都是写Map/Reduce计算任务在Hadoop集群中做计算,一次任务所需的计算时间从数小时到数天不等,大大制约了APT事件的追踪效率。


Poseidon系统就是为解决这个需求而设计的,能在数百万亿条规模的数据集中找出我们需要的数据,只需要花费几秒钟时间,大大提高工作效率;同时,数据不需要额外存储,节省了大量存储和计算资源。该系统可以应用于任何海量(从万亿到千万亿规模)的查询检索需求。


听众受益:Poseidon系统是大数据领域又一个简洁高效的解决方案。在数据规模达到万亿级别之后,ES等系统就解决不好了,而且相较于HBase等方案,Poseidon系统更加节省存储空间,用户友好性更好,对现有Map/Reduce、Spark等任务都无侵害性。


Spotify Software Engineer Igor Maravić 将分享《Spotify 高度可靠的事件交付系统是如何设计与运维的》。


Spotify 的事件交付系统是 Spotify 数据基础设施的核心要素之一。该系统的一个关键需求是,应该在可预测的延迟下可靠完整地交付数据,供开发人员通过定义好的接口获取。交付的数据用于支持 Discover Weekly、Fresh Finds 和 Spotify Party 等产品功能。


目前,该系统每秒会交付100万事件。为实现系统的无缝伸缩,它被设计为一组微服务。系统使用 Google Cloud Pub/Sub 在 Spotify 的数据中心之间转移海量数据。


本次演讲将分享 Spotify 高度可靠的事件交付系统的设计与运维细节。


现在报名,可享 8 折优惠。更多信息,可点击“阅读原文”,访问大会网站。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存