沙龙回顾 | 刘思喆:在线教育数据科学家的自我修养
2020年11月29日上午,北京大学光华管理学院2020级商业分析硕士班行业沙龙委员会邀请51Talk首席数据科学家,大数据智能中心负责人刘思喆先生为同学们带来题为“在线教育数据科学家的自我修养”的行业沙龙。
速读摘要:在有了全面的数据以及精准的模型,数据团队计算实时的预测每个客户的付费概率,并呈现给"课程顾问"帮助他们做更好的决策。当我们有了更多信息之后,真相才会逐步浮出水面,并且并不是模型越精准效果越好,还需要考虑模型的使用者和使用场景。并为达成上述目标制定所需采取的策略,并且明白这项策略会针对哪个指标进行变化,之后观察指标,衡量策略的有效性,反应业务目标达成情况。在沙龙的最后,同学们踊跃参与提问,刘思喆老师就同学们的问题做出了详细的解答,引导同学们在掌握统计知识的同时,也要注重对业务的理解,要注重业务的投入产出比和可解释性。
原文约 2040 字,建议阅读 5 分钟
1
两个有趣的案例
刘思喆老师列举了业务中遇到的两个有趣的案例:
案例1:虽单看不同星座、不同年龄的“课程顾问”付费转化率最高,但当综合考虑全部的因素时,发现星座和年龄其实并不显著,而“课程顾问”的籍贯才是显著变量,因为这个指标可以体现“课程顾问”的服务意识。
案例2:在有了全面的数据以及精准的模型,数据团队计算实时的预测每个客户的付费概率,并呈现给“课程顾问”帮助他们做更好的决策。但在AB测试时,发现看到信息的“课程顾问”,效率显著地低于没有看到信息的“课程顾问”,因为一些“课程顾问”看到特别好的客户选择不跟进。
通过这两个案例,刘思喆老师向同学们介绍在实际业务中要小心单维度指标分析传递的信息,当我们有了更多信息之后,真相才会逐步浮出水面,并且并不是模型越精准效果越好,还需要考虑模型的使用者和使用场景。
2
工作内容的时间轴
刘思喆老师列举了51Talk大数据团队的主要工作内容以及为什么做这些项目,指出在线教育领域有四个关键指标应该关注,分别为转化率,退费率,续费率,转介绍率。目前51Talk已建立四套归因模型,全面回答以上四个关键指标的的相关影响因素。
随着业务的推进,目前51Talk的数据团队已逐步精细化,演变为数据分析(商业数据分析和决策支持、BI可视化)、数据架构(需求和规划、数据仓库、技术平台、数据质量)和增长应用(数据挖掘、供需平衡算法、数据产品)三个方向。
这一部分刘思喆老师总结为,看起来很厉害的算法不一定都有商业价值;模型的应用方向和问题的定义有很大关系,实际业务中是可以通过退费与否的来反向找到业务的漏洞点;数据团队应知道如何二次应用数据以及其附加价值在哪,在没有这部分信息时,数据团队需要主动出击,向外走一步;数据团队还要将思考二阶和三阶问题变成本能。
3
商业赋能和数据驱动
数据驱动的关键要素为:(1)行为和预期,即预测数据的变化,进行直击行为,行为反馈闭环;(2)缩短反馈周期,数据团队应清楚机制的建立,数据的收集,呈现的对象以及呈现方式等。在实际业务中,数据驱动存在方法论,即在业务中根据业务、产品、功能等定义目标,并为达成上述目标制定所需采取的策略,并且明白这项策略会针对哪个指标进行变化,之后观察指标,衡量策略的有效性,反应业务目标达成情况。
4
数据科学家的要求
通过“能解决问题的分析师技能栈敏感性分析”,刘思喆老师指出在23项数据分析的基本素质要求中,分析师更应关注复盘和反思能力,问题界定和拆解能力,价值和重要性判断能力,系统化和结构化思维这四方面能力。
在沙龙的最后,同学们踊跃参与提问,刘思喆老师就同学们的问题做出了详细的解答,引导同学们在掌握统计知识的同时,也要注重对业务的理解,要注重业务的投入产出比和可解释性。他建议同学们三点建议:一是要终身学习才能跟上数据的变化;二是个人要找到行业的“势”,目前数据科学的红利在细分的垂直领域;三是岗位选择上,与决策层远近体现了数据团队的话语权。
刘思喆,51Talk(NYSE:COE)首席数据科学家,大数据智能中心负责人,负责商业流程算法优化、数据产品、数据平台建设,以及运营分析、用户行为挖掘、风控和反作弊等相关工作。在加入51Talk前,他是京东(JD.com)推荐平台部高级经理,曾经将推荐系统带来订单占全京东订单的比例,从5%提升到10%。入选京东技术名人堂,在《京东技术解密》一书中,15 位技术牛人之一。同时他还是“统计之都”理事会成员,中国人民大学大数据分析实验班、首经贸信息学院校外硕士生导师。国内R语言的早期推广者,17年的使用经验,《153分钟学会R》的作者,《R语言核心技术手册》的译者。
个人博客:http://www.bjt.name
往期回顾
01 |
02 |
03 |
持续关注北大光华商业分析
第一时间掌握项目信息