查看原文
其他

Netflix是如何打造万亿级别的数据流水线的?

2016-12-27 吴震 QCon

Netflix 是一个数据驱动型公司,许多产品决定是基于数据分析得到的洞察。几百个微服务系统每天产生万亿条消息和 PB 级数据,数据流水线负责从生产者到消费平台(如 Hadoop/ElasticSearch/Kafka)传输如此大规模的数据。Netflix 软件工程师吴震,在 QCon 上海 2016 大会上和我们分享了 Netflix 是如何做到的。


首先看看 Netflix 数据流水线过去几年的演化之路,然后深入探讨新的 Keystone 数据流水线的架构和一些设计抉择,分享 Keystone 在实战中遇到的问题和得到的教训,最后浅谈对 Keystone 未来的一些想法。


演讲视频

https://v.qq.com/txp/iframe/player.html?vid=l03605q3qkv&width=500&height=375&auto=0


作者介绍

吴震,Netflix 软件工程师。目前在 Real-time Data Infrastructure 组工作,负责的数据流水线是 Netflix 的数据大动脉——传输数据从生产者到消费平台(如 Hadoop/ElasticSearch/Kafka)。近期完成了数据流水线从 Chukwa 到 Keystone 的演化。之前在 Cloud Platform 组工作,构建 Netflix 的微服务架构的基石。


幻灯片



在公众号后台回复“Net”,即可下载完整幻灯片。



延展阅读:

看360如何打造百万亿级的日志搜索引擎

大数据可视化在Autodesk的实践

饿了么异构服务平台数据访问层的演进

美团万亿级对象存储系统架构实践

滴滴怎样用数据驱动产品决策?


每一次相遇都是久别重逢。时隔一年,QCon 北京站将于 2017 年 4 月 16—18 日在北京国家会议中心华丽归来。20+ 热点专题出炉,涵盖区块链、VR、TensorFlow、深度学习等潮流技术,及研发安全、移动专项、智能运维、业务架构等一手实践。国内外技术专家共襄盛举,点击“阅读原文”,1 月 1 日前报名,尽享 7 折特惠。

演讲预告:

Blink——阿里新一代实时计算引擎

阿里数据基础设施团队负责人 王峰(莫问)


在开源大数据技术业界,第一代实时计算引擎是 Storm,随后出现了 Samza,近几年持续火爆的 Spark 也推出了 Spark Streaming,但我们更看好 Flink 这个新一代的纯流式计算引擎。阿里巴巴搜索技术团队从去年开始改进 Flink,并创建了阿里的 Flink 分支,线上服务了阿里集团内部搜索、推荐、广告和蚂蚁等核心实时业务,我们称之为 Blink 计算引擎。


本次分享将全面介绍阿里新一代实时计算引擎 Blink 对 Flink 的各项改进,并向大家分享 Blink 计算引擎在阿里内部的典型应用场景。


更多信息请点击“阅读原文”关注 QCon 北京 2017。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存