沙龙回顾 | 朱宏图:数据产品开发的一些思考
2020年12月19日,北京大学光华管理学院2020级商业分析硕士举办了本学期第四次行业沙龙,本次沙龙邀请了滴滴出行首席统计学家朱宏图老师,由朱老师向我们分享了行业内数据产品开发过程中的一些思考。
1
什么是数据产品
首先,朱老师和我们一起探讨了什么是数据产品。朱老师认为,数据产品是一类产品的统称,不同业务人员眼中数据产品的定义都不同,总的来说,数据产品是通过收集和挖掘数据的价值来为受众(用户,企业,和政府)创造价值(比如,某种决策/行为)的一种产品形式。例如,狭义来看,数据产品往往体现为报表型、工具型和定制服务型等,广义来看,遥感影像、医学图像甚至视频分析等都是数据产品的一种形式。目前,数据产品依靠语音技术、自然语言处理、计算机视觉和大数据技术已广泛应用于各个行业,如医疗、零售、教育、交通等等。
2
数据产品的三个核心层
朱老师强调,一个成功的数据产品由三个核心层,包含一个中心(应用层)与两个基本点(数据层和算法层)。以5G红外成像测温为例,应用层是要做到在公共场所中(像飞机场、火车站等)如何无感、无接触、且快速精准的识别高温人员;在数据层,收集到大量有很高精准度的训练数据集,通过挑选固定人群出现在各种公共场所中,并同时采集他们红外热成像数据和提问的信息;在算法层,用人脸识别技术与红外热成像等相关的算法技术来训练统计模型以精准地预测人体体温。
3
数据产品开发的基本步骤
朱老师将数据产品开发的过程总结为四个基本步骤,第一步是业务指标的拆解,需要从业者根据业务目标,提出数据产品的需求,思考数据产品的目的及其可能对业务带来的帮助;第二步是数据的提取,将上一步了解的需求转化为具体的数据指标KPI,有目的地提取相关和有用的数据;第三步是底层数据建设,经过数据清洗、整合数据、缺失值处理等预处理步骤,进行画像建设和特征提取,建立知识图谱;第四步是模块建设,在每个模块的开发中不断进行模型的选择与改进,直到达到一定的准确度。朱老师强调,业务目标的拆解、高超的算法技术与底层数据的建设是三角关系,它们相辅相成,互相作用,缺一不可。
最后,朱老师以滴滴出行网约车业务线为例向我们分享了数据产品在业务过程中的实践,带领我们拆解了网约车供需模型中的业务指标,并且通过具体的案例让我们感受到了底层数据建设的重要性。同学们听完后意犹未尽,纷纷提出了自己对于数据产品的思考和疑惑,和朱老师积极讨论算法细节以及职业前景。
往期回顾
01 |
02 |
03 |
持续关注北大光华商业分析
第一时间掌握项目信息