其他
百度用户产品流批一体的实时数仓实践
一、大数据架构演进
1)一个需求会有两套代码,同时开发两遍,也就会造成开发成本的浪费。
2)资源需要两份,一份离线的资源,一份流式的资源,整体资源占用比较多。
3)数据差异问题,离线和实时的数据总是有差异,对不齐,体验比较差。
1)数据回溯的问题,业务口径的变更会带来数据回溯,kappa架构没有离线数据流,回溯的成本是很高的。
2)随着业务的复杂度增加,数据源的复杂度也增加,流式计算环节会面临各种复杂关联场景的挑战,开发和维护的成本非常高。
二、背景
1)由于业务比较复杂,采用分层建模,数据表量级在千张级别,表关联场景多,一次查询可能需要关联几十张表,查询时效慢,平均时效在几十分钟级别。
2)数据延迟严重,大部分数据都是天级产出,个别小时级的数据产出也要延迟几个小时。
3)实时和离线数据存在差异,不能对齐,每次需要开发两套代码,维护成本高。
三、技术方案
GEEK TALK
四、总结和规划