独家|58同城实时数仓计算平台架构与实践
Editor's Note
本文主要介绍58同城实时计算平台技术演进,以及基于Flink打造的一站式实时计算平台Wstream,涵盖很多实践经验、干货和方法论,希望对您有所帮助。
The following article is from 58技术 Author 冯海涛/万石康
58同城作为覆盖生活全领域的服务平台,业务覆盖招聘、房产、汽车、金融、二手及本地服务等各个方面。丰富的业务线和庞大的用户数每天产生海量用户数据需要实时化的计算分析,实时计算平台定位于为集团海量数据提供高效、稳定、分布式实时计算的基础服务。本文主要介绍58同城基于Flink打造的一站式实时计算平台Wstream。
实时计算场景
和很多互联网公司一样,实时计算在58拥有丰富的场景需求,主要包括以下几类:
平台演进
实时计算引擎前期基于Storm和Spark Streaming构建,很多情况下并不能很好的满足业务需求,如商业部门基于Spark Streaming构建的特征平台希望将计算延迟由分钟级降低到秒级,提升用户体验,运维监控平台基于Storm分析公司全量nginx日志对线上业务进行监控,需要秒级甚至毫秒级别的延迟,Storm的吞吐能力成为瓶颈。同时随着实时需求不断增加,场景更加丰富,在追求任务高吞吐低延迟的基础上,对计算过程中间状态管理,灵活窗口支持,以及exactly once语义保障的诉求越来越多。Apache Flink开源之后,支持高吞吐低延迟的架构设计以及高可用的稳定性,同时拥有实时计算场景一系列特性以及支持实时Sql模型,使我们决定采用 Flink作为新一代实时计算平台的计算引擎。
平台规模
Flink稳定性
Flink作为实时计算集群,可用性要求远高于离线计算集群。为保障集群可用性,平台主要采用任务隔离以及高可用集群架构保障稳定性。任务隔离 在应用层面主要基于业务线以及场景进行机器隔离,队列资源分配管理,避免集群抖动造成全局影响。
Flink集群采用了ON YARN模式独立部署,为减少集群维护工作量,底层HDFS利用公司统一HDFS Federation架构下建立独立的namespace,减少Flink任务在checkpoint采用hdfs/rocksdb作为状态存储后端场景下由于hdfs抖动出现频繁异常失败。在资源隔离层面,引入Node Label机制实现重要任务运行在独立机器,不同计算性质任务运行在合适的机器下,最大化机器资源的利用率。同时在YARN资源隔离基础上增加Cgroup进行物理cpu隔离,减少任务间抢占影响,保障任务运行稳定性。
平台化管理
Wstream是一套基于Apache Flink构建的一站式、高性能实时大数据处理平台。提供SQL化流式数据分析能力,大幅降低数据实时分析门槛,支持通过DDL实现source/sink以及维表,支持UDF/UDAF/UDTF,为用户提供更强大的数据实时处理能力。支持多样式应用构建方式FlinkJar/Stream SQL/Flink-Storm,以满足不同用户的开发需求,同时通过调试,监控,诊断,探查结果等辅助手段完善任务生命周期管理。流式sql能力建设
Stream SQL是平台为了打造sql化实时计算能力,减小实时计算开发门槛,基于开源的Flink,对底层sql模块进行扩展实现以下功能 1.支持自定义DDL语法(包括源表,输出表,维表) 2.支持自定义UDF/UDTF/UDAF语法 3.实现了流与维表的join,双流join在支持大数据开源组件的同时,也打通了公司主流的实时存储平台。同时为用户提供基于Sql client的cli方式以及在Wstream集成了对实时sql能力的支持,为用户提供在线开发调试sql任务的编辑器,同时支持代码高亮,智能提示,语法校验及运行时校验,尽可能避免用户提交到集群的任务出现异常。另外也为用户提供了向导化配置方式,解决用户定义table需要了解复杂的参数设置,用户只需关心业务逻辑处理,像开发离线Hive一样使用sql开发实时任务。Storm任务迁移Flink
在完善Flink平台建设的同时,我们也启动Storm任务迁移Flink计划,旨在提升实时计算平台整体效率,减少机器成本和运维成本。Flink-Storm作为官方提供Flink兼容Storm程序为我们实现无缝迁移提供了可行性,但是作为beta版本,在实际使用过程中存在很多无法满足现实场景的情况,因此我们进行了大量改进,主要包括实现Storm任务on yarn ,迁移之后任务at least once语义保障,兼容Storm的 tick tuple机制等等。任务诊断
Flink webUI 提供了大量的运行时信息供用户了解任务当前运行状况,但是存在无法获取历史metrics的问题导致用户无法了解任务历史运行状态,因此我们采用了Flink原生支持的Prometheus进行实时指标采集和存储,Prometheus是一个开源的监控和报警系统,通过pushgateway的方式实时上报metrics,Prometheus集群采用Fedration部署模式,meta节点定时抓取所有子节点指标进行汇总,方便统一数据源提供给Grafana进行可视化以及告警配置。
Flink优化
在实际使用过程中,我们也针对业务场景进行了一些优化和扩展,主要包括:1.Storm任务需要Storm引擎提供ack机制保障消息传递at least once语义,迁移到Flink无法使用ack机制,我们通过定制KafakSpout实现checkpoint相关接口,通过Flink checkpoint机制实现消息传递不丢失。另外Flink-Storm默认只能支持standalone的提交方式,我们通过实现yarn client相关接口增加了storm on yarn的支持。2.Flink 1.6推荐的是一个TaskManager对应一个slot的使用方式,在申请资源的时候根据最大并发度申请对应数量的TaskManger,这样导致的问题就是在任务设置task slots之后需要申请的资源大于实际资源。我们通过在ResoureManager请求资源管理器SlotManager的时候增加TaskManagerSlot相关信息,用于维护申请到的待分配TaskManager和slot,之后对于SlotRequests请求不是直接申请TaskManager,而是先从SlotManager申请是否有足够slot,没有才会启动新的TaskManger,这样就实现了申请资源等于实际消耗资源,避免任务在资源足够的情况下无法启动。4.Flink提交任务无法支持第三方依赖jar包和配置文件供TaskManager使用,我们通过修改flink启动脚本,增加相关参数支持外部传输文件,之后在任务启动过程中通过将对应的jar包和文件加入classpath,借助yarn的文件管理机制实现类似spark对应的使用方式,方便用户使用5.业务场景存在大量实时写入hdfs需求,Flink 自带BucketingSink默认只支持string和avro格式,我们在此基础上同时支持了LZO及Parquet格式写入,极大提升数据写入性能。
后续规划
实时计算平台当前正在进行Storm任务迁移Flink集群,目前已经基本完成,大幅提升了平台资源利用率和计算效率。后续将继续调研完善Flink相关能力,推动Flink在更多的实时场景下的应用,包括实时规则引擎,实时机器学习等。作者简介冯海涛/万石康 负责58同城实时计算平台建设
END
点击下方图片即可阅读
点击下方图片即可阅读
今日荐文
点击下方文字即可阅读
▼ 福利时刻 ▼
01. 后台回复「经典」,即可领取大数据数仓经典书籍。
02. 后台回复「加群」,或添加小助微信ID:iom1128 拉您入群或领取资料。
技术大佬们在等你,各种资源定期分享~
Q: 关于数据仓库,你还想了解什么?
欢迎留言区与大家分享
觉得不错,请把这篇文章分享给你的朋友哦
入群请联系小助手:iom1128『紫霞仙子』
更多精彩,请戳"阅读原文"到"数仓之路"查看
更多精彩,请戳"阅读原文"到"数据分析"查看
!关注不迷路~ 各种福利、资源定期分享!
你也「在看」吗