Netflix是如何打造万亿级别的数据流水线的？

Original 2016-12-27 吴震 QCon

Netflix 是一个数据驱动型公司，许多产品决定是基于数据分析得到的洞察。几百个微服务系统每天产生万亿条消息和 PB 级数据，数据流水线负责从生产者到消费平台（如 Hadoop/ElasticSearch/Kafka）传输如此大规模的数据。Netflix 软件工程师吴震，在 QCon 上海 2016 大会上和我们分享了 Netflix 是如何做到的。

首先看看 Netflix 数据流水线过去几年的演化之路，然后深入探讨新的 Keystone 数据流水线的架构和一些设计抉择，分享 Keystone 在实战中遇到的问题和得到的教训，最后浅谈对 Keystone 未来的一些想法。

演讲视频

https://v.qq.com/txp/iframe/player.html?vid=l03605q3qkv&width=500&height=375&auto=0

作者介绍

吴震，Netflix 软件工程师。目前在 Real-time Data Infrastructure 组工作，负责的数据流水线是 Netflix 的数据大动脉——传输数据从生产者到消费平台(如 Hadoop/ElasticSearch/Kafka)。近期完成了数据流水线从 Chukwa 到 Keystone 的演化。之前在 Cloud Platform 组工作，构建 Netflix 的微服务架构的基石。

幻灯片

在公众号后台回复“Net”，即可下载完整幻灯片。

延展阅读：

每一次相遇都是久别重逢。时隔一年，QCon 北京站将于 2017 年 4 月 16—18 日在北京国家会议中心华丽归来。20+ 热点专题出炉，涵盖区块链、VR、TensorFlow、深度学习等潮流技术，及研发安全、移动专项、智能运维、业务架构等一手实践。国内外技术专家共襄盛举，点击“阅读原文”，1 月 1 日前报名，尽享 7 折特惠。

演讲预告：

《Blink——阿里新一代实时计算引擎》

阿里数据基础设施团队负责人王峰（莫问）

在开源大数据技术业界，第一代实时计算引擎是 Storm，随后出现了 Samza，近几年持续火爆的 Spark 也推出了 Spark Streaming，但我们更看好 Flink 这个新一代的纯流式计算引擎。阿里巴巴搜索技术团队从去年开始改进 Flink，并创建了阿里的 Flink 分支，线上服务了阿里集团内部搜索、推荐、广告和蚂蚁等核心实时业务，我们称之为 Blink 计算引擎。

本次分享将全面介绍阿里新一代实时计算引擎 Blink 对 Flink 的各项改进，并向大家分享 Blink 计算引擎在阿里内部的典型应用场景。

更多信息请点击“阅读原文”关注 QCon 北京 2017。

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间