Netflix是如何打造万亿级别的数据流水线的?
Netflix 是一个数据驱动型公司,许多产品决定是基于数据分析得到的洞察。几百个微服务系统每天产生万亿条消息和 PB 级数据,数据流水线负责从生产者到消费平台(如 Hadoop/ElasticSearch/Kafka)传输如此大规模的数据。Netflix 软件工程师吴震,在 QCon 上海 2016 大会上和我们分享了 Netflix 是如何做到的。
首先看看 Netflix 数据流水线过去几年的演化之路,然后深入探讨新的 Keystone 数据流水线的架构和一些设计抉择,分享 Keystone 在实战中遇到的问题和得到的教训,最后浅谈对 Keystone 未来的一些想法。
演讲视频
https://v.qq.com/txp/iframe/player.html?vid=l03605q3qkv&width=500&height=375&auto=0
作者介绍
吴震,Netflix 软件工程师。目前在 Real-time Data Infrastructure 组工作,负责的数据流水线是 Netflix 的数据大动脉——传输数据从生产者到消费平台(如 Hadoop/ElasticSearch/Kafka)。近期完成了数据流水线从 Chukwa 到 Keystone 的演化。之前在 Cloud Platform 组工作,构建 Netflix 的微服务架构的基石。
幻灯片
在公众号后台回复“Net”,即可下载完整幻灯片。
延展阅读:
每一次相遇都是久别重逢。时隔一年,QCon 北京站将于 2017 年 4 月 16—18 日在北京国家会议中心华丽归来。20+ 热点专题出炉,涵盖区块链、VR、TensorFlow、深度学习等潮流技术,及研发安全、移动专项、智能运维、业务架构等一手实践。国内外技术专家共襄盛举,点击“阅读原文”,1 月 1 日前报名,尽享 7 折特惠。
演讲预告:
《Blink——阿里新一代实时计算引擎》
阿里数据基础设施团队负责人 王峰(莫问)
在开源大数据技术业界,第一代实时计算引擎是 Storm,随后出现了 Samza,近几年持续火爆的 Spark 也推出了 Spark Streaming,但我们更看好 Flink 这个新一代的纯流式计算引擎。阿里巴巴搜索技术团队从去年开始改进 Flink,并创建了阿里的 Flink 分支,线上服务了阿里集团内部搜索、推荐、广告和蚂蚁等核心实时业务,我们称之为 Blink 计算引擎。
本次分享将全面介绍阿里新一代实时计算引擎 Blink 对 Flink 的各项改进,并向大家分享 Blink 计算引擎在阿里内部的典型应用场景。
更多信息请点击“阅读原文”关注 QCon 北京 2017。