沙龙回顾 | 刘思喆：在线教育数据科学家的自我修养

光华BA 北大光华商业分析 2021-09-15

PKUGSM BUSINESS ANALYTICS

2020年11月29日上午，北京大学光华管理学院2020级商业分析硕士班行业沙龙委员会邀请51Talk首席数据科学家，大数据智能中心负责人刘思喆先生为同学们带来题为“在线教育数据科学家的自我修养”的行业沙龙。

速读摘要：在有了全面的数据以及精准的模型，数据团队计算实时的预测每个客户的付费概率，并呈现给"课程顾问"帮助他们做更好的决策。当我们有了更多信息之后，真相才会逐步浮出水面，并且并不是模型越精准效果越好，还需要考虑模型的使用者和使用场景。并为达成上述目标制定所需采取的策略，并且明白这项策略会针对哪个指标进行变化，之后观察指标，衡量策略的有效性，反应业务目标达成情况。在沙龙的最后，同学们踊跃参与提问，刘思喆老师就同学们的问题做出了详细的解答，引导同学们在掌握统计知识的同时，也要注重对业务的理解，要注重业务的投入产出比和可解释性。

原文约 2040 字，建议阅读 5 分钟

两个有趣的案例

刘思喆老师列举了业务中遇到的两个有趣的案例：

案例1：虽单看不同星座、不同年龄的“课程顾问”付费转化率最高，但当综合考虑全部的因素时，发现星座和年龄其实并不显著，而“课程顾问”的籍贯才是显著变量，因为这个指标可以体现“课程顾问”的服务意识。

案例2：在有了全面的数据以及精准的模型，数据团队计算实时的预测每个客户的付费概率，并呈现给“课程顾问”帮助他们做更好的决策。但在AB测试时，发现看到信息的“课程顾问”，效率显著地低于没有看到信息的“课程顾问”，因为一些“课程顾问”看到特别好的客户选择不跟进。

通过这两个案例，刘思喆老师向同学们介绍在实际业务中要小心单维度指标分析传递的信息，当我们有了更多信息之后，真相才会逐步浮出水面，并且并不是模型越精准效果越好，还需要考虑模型的使用者和使用场景。

工作内容的时间轴

刘思喆老师列举了51Talk大数据团队的主要工作内容以及为什么做这些项目，指出在线教育领域有四个关键指标应该关注，分别为转化率，退费率，续费率，转介绍率。目前51Talk已建立四套归因模型，全面回答以上四个关键指标的的相关影响因素。

随着业务的推进，目前51Talk的数据团队已逐步精细化，演变为数据分析（商业数据分析和决策支持、BI可视化）、数据架构（需求和规划、数据仓库、技术平台、数据质量）和增长应用（数据挖掘、供需平衡算法、数据产品）三个方向。

这一部分刘思喆老师总结为，看起来很厉害的算法不一定都有商业价值；模型的应用方向和问题的定义有很大关系，实际业务中是可以通过退费与否的来反向找到业务的漏洞点；数据团队应知道如何二次应用数据以及其附加价值在哪，在没有这部分信息时，数据团队需要主动出击，向外走一步；数据团队还要将思考二阶和三阶问题变成本能。

商业赋能和数据驱动

从用户视角来看，用户价值主张有三点：一是总成本最低（卓越运营，又便宜又好），二是产品领先（极致体验，对用户心智产生影响），三是为用户提供解决方案。那对于一个数据团队关注的核心点是第一点，即通过加快发现数据的速度；合理表达业务，降低关键人决策和时间成本；同时做到面向客户智能化，降低组织的协作成本，快速将个人智慧成为群体智慧等方式，让一个企业的生产效率高于市场。
数据驱动的关键要素为：(1)行为和预期，即预测数据的变化，进行直击行为，行为反馈闭环；(2)缩短反馈周期，数据团队应清楚机制的建立，数据的收集，呈现的对象以及呈现方式等。在实际业务中，数据驱动存在方法论，即在业务中根据业务、产品、功能等定义目标，并为达成上述目标制定所需采取的策略，并且明白这项策略会针对哪个指标进行变化，之后观察指标，衡量策略的有效性，反应业务目标达成情况。

数据科学家的要求

通过“能解决问题的分析师技能栈敏感性分析”，刘思喆老师指出在23项数据分析的基本素质要求中，分析师更应关注复盘和反思能力，问题界定和拆解能力，价值和重要性判断能力，系统化和结构化思维这四方面能力。

在沙龙的最后，同学们踊跃参与提问，刘思喆老师就同学们的问题做出了详细的解答，引导同学们在掌握统计知识的同时，也要注重对业务的理解，要注重业务的投入产出比和可解释性。他建议同学们三点建议：一是要终身学习才能跟上数据的变化；二是个人要找到行业的“势”，目前数据科学的红利在细分的垂直领域；三是岗位选择上，与决策层远近体现了数据团队的话语权。

刘思喆，51Talk(NYSE:COE)首席数据科学家，大数据智能中心负责人，负责商业流程算法优化、数据产品、数据平台建设，以及运营分析、用户行为挖掘、风控和反作弊等相关工作。在加入51Talk前，他是京东(JD.com)推荐平台部高级经理，曾经将推荐系统带来订单占全京东订单的比例，从5%提升到10%。入选京东技术名人堂，在《京东技术解密》一书中，15 位技术牛人之一。同时他还是“统计之都”理事会成员，中国人民大学大数据分析实验班、首经贸信息学院校外硕士生导师。国内R语言的早期推广者，17年的使用经验，《153分钟学会R》的作者，《R语言核心技术手册》的译者。

个人博客：http://www.bjt.name

往期回顾

｜沙龙回顾 | 刘晓蕾：实证研究思维

｜沙龙回顾 | 金李：智能普惠金融

｜沙龙回顾 | 陈松蹊：去除数据中的混杂偏差——从女士品茶到大气污染评估

持续关注北大光华商业分析

第一时间掌握项目信息

长按“上图”识别二维码，关注北大光华商业分析

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

沙龙回顾 | 刘思喆：在线教育数据科学家的自我修养

您可能也对以下帖子感兴趣

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

生成图片，分享到微信朋友圈

沙龙回顾 | 刘思喆：在线教育数据科学家的自我修养

您可能也对以下帖子感兴趣