其他
基于 Apache Flink 的实时计算数据流业务引擎在京东零售的实践和落地
京东零售实时计算的现状
实时计算框架
场景优化:
TopN
场景优化:动线分析
场景优化:FLINK 一站式机器学习
Tips:点击「阅读原文」查看更多技术内容~
01
京东零售实时计算的现状
1.1 现状
技术门槛高、学习成本大、开发周期长。行业内实时开发能力只有少数人能够掌握的现状; 数据开发迭代效率比较低,重复逻辑反复的开发缺少复用; 测试运维难,复杂业务逻辑难以局部测试。
降本增效、节省人力,助力高效开发; 多角色数据开发,不同角色对应不同的开发方式,非数据人员也能做数据开发的工作。
1.3 目标
降低数据开发门槛,通过标准化积木式的开发,实现低代码配置化数据加工,进一步实现图形化清晰表达数据流转; 通过算子库组件的沉淀,提升开发效率,提高复用性,一站式加工; 通过单元测试以及沉淀用例,提高开发质量。
02
实时计算框架
2.1 为什么做数据流框架
数据流框架:9N-Tamias/9N-Combustor,数据流框架基于计算引擎之上,提供一种易用高效的数据开发方式,包括:tamias,是基于 Flink 的引擎的开发框架;combustor:基于 Spark 引擎的开发框架。基于 9N-Tamias 和 9N-Combustor 提供数据流开发工具; 支持实时离线统一的表达; 多种使用方式:图形化、配置化、SDK 等; 算子、组件复用:数据流算子、转换算子、自定义算子、目标源算子,灵活的组合,沉淀常用的算子组合,组件化包括数据流组件和自定义组件,通过数据流开发沉淀数据流组件,同时也开放自主开发自定义组件方式,通过算子、组件的复用,提高开发效率。
2.2 怎么做实时计算框架?
2.3 实时框架:公用 Ops 和 Function
03
场景优化:TopN
3.1 复用算子
3.2 任务优化
04
场景优化:动线分析
4.1 什么是动线
4.2 数据建模
4.3 模型建模
05
场景优化:FLINK 一站式机器学习
5.1 特征
5.2 样本
5.3 模型 online learning
5.4 预估
往期精选