乂学教育：动态博弈的策略型系统，让每个孩子都可以拥有特级教师的服务

2017-12-21 36氪

2017年3月，乂学教育宣布，天使轮融资达到1.2亿元，由新东方、国科嘉和、景林资本三家共同领投。3个月后，SIG海纳亚洲宣布对乂学教育追投1.5亿元。天使轮就融到2.7亿元，这让乂学教育成为在线教育领域最受资本青睐的公司之一。

创立于2014年的乂学教育把自己称为一家“人工智能自适应网络教育公司”。创始人栗浩洋身材精干、语速飞快，有着教育工作者所必需的旺盛精力和热情。

求学期间，栗浩洋是一位真正的“学霸”。他曾获得奥林匹克数学全国一等奖，同时拿到清华、北大、上海交大、复旦等八所重点高校的保送资格。从上海交大试点班毕业后，他凭借学习上的深度思考和独特的方法论和改变教育弊端的愿望，开始了连续创业。栗浩洋在2004年创立的昂立教育投资咨询公司（昂立全国少儿）目前已经在全国开设了2700家连锁学校；2014年，提前两年预见到了人工智能的技术成熟和未来能力，他又创立了乂学教育。

栗浩洋认为，乂学教育正踩在互联网教育的第五波浪潮上。第一波浪潮是以MOOC（慕课）在线课程为代表的“互联网+浪潮”。第二波是以“题库”“作业”等为代表的工具化浪潮。第三波是O2O教育浪潮。第四波是以VIPKID为代表的“真人一对一”教育浪潮。而第五波浪潮可能将对教育理念产生更根本性的颠覆，也就是“人工智能+教育”的浪潮。

传统教育中，老师的授课模式多是“一对多”和对知识点线性地推进，无法根据学生的接受度和学习习惯因材施教。如果采用更有针对性的“一对一”辅导，要求教师经验必须丰富，但名师的成本十分昂贵。

人工智能技术的成熟，让改变这些教育痛点成为可能。十几年前，在国外就有将计算机技术与教育结合的尝试，这被概括为“人工智能自适应学习”模式，简称“智适应学习”模式。“智适应学习”的本质是利用大数据分析工具，通过智能测试、系统分析、教师跟进、学生自主学习，为每个学生定制课程方案，让学习变得更有效率。但传统的没有人工智能介入的规则型“自适应学习”存在发展的瓶颈，就是缺少类似真人教师的实时分析和干预。直到人工智能技术的出现，“智适应学习”才得以真正发扬光大。

美国的Knewton公司是最早将人工智能技术应用到“自适应学习”的机构。他们设计出应对GMAT、SAT等全球性考试的自适应学习工具，为学生大幅提高了学习效率和考试成绩，目前的估值也超过10亿美金，并且获得了Google Capital的投资。栗浩洋关注到这股潮流，希望将这些最先进的学习理念结合国情，打造出一款适合中国学生的K12教育（中小学基础教育阶段）学习产品松鼠AI。

做出这样一套系统的难点在于，需要将大量知识点重新拆解。栗浩洋把乂学教育拆解后的知识点形容为“纳米级”颗粒，精准探测出学生的知识点盲区后，再针对颗粒级别的盲区做专门的视频讲解、专项练习、专题测试。栗浩洋说，这个拆解过程在中国没有前路可循，历时漫长，过程艰辛，且造价昂贵。

使用乂学教育的松鼠AI系统，学生可以用有限的时间和题目检测出知识点的掌握程度，且无遗漏。同时，为了激发学生的学习热情，这套系统还要始终保持“贴着学生的知识边界”教学，实时自动规划适合该学生的学习难度和顺序，让学生的体验最好、成就感最强。

栗浩洋把乂学教育的松鼠AI系统形容为不断在寻求最优解的策略型AI。策略型AI最大的特点是永远是动态的，永远在做博弈。这套系统除了包含人工智能的前沿知识，还结合了大量的知识空间理论、贝叶斯理论、分类树、概率分布、逻辑斯蒂回归等原理。同时，系统也要将教育测量学、认知科学、心理学知识融入其中。

当下，乂学教育的商业化道路也在循序渐进地推进中。乂学教育设计了线上和线下的两个路径：在线下，乂学教育已经开设了近300家授权连锁学校，授课模式是“松鼠AI智适应系统”为主、老师辅助。纯线上学习则是通过“松鼠AI智适应系统”＋老师直播监控的方式完成。

栗浩洋对于用人工智能推动教育的改变充满信心。“我们目前只是刚刚开始打破传统的教学模式壁垒。”在更遥远的未来，栗浩洋相信，教学一定会被机器人所取代。“每一个孩子面对松鼠AI系统，就像是面对一个集合了苏格拉底、达芬奇和爱因斯坦的智慧于一身的导师在跟你进行充满智慧和方法的启发式教育！”

以下是36氪与栗浩洋的对话：

36氪：使用乂学教育的AI系统，教学步骤和逻辑是怎样的？

栗浩洋：我们的教学步骤分五步。第一步是AI检测。我们会先对学生做一个拆分到“纳米级”的知识点的全面扫描，比如学生对连词的理解有问题，我们会具象到他是对定语从句中的连词不理解。

第二步，我们会给学生设计一个个性化的学习路径。比如50分的孩子，可能他到学期末也学不完所有的知识点，因为他不可能考到100分。那么我们就会给他设置一个从50分考到70分的路径，并且同样是50分的孩子每个人的路径也可能完全不同。

第三步，对知识点盲区做视频讲解的时长、训练量、训练难度由AI算法决定。过去的线上教育比如慕课，不管学生是什么程度，课程时长都是不变的。我们会根据AI后台的各种数据：比如学生做每道题的时间、正确率，给他们推送不同难度系数、不同交叉维度的讲解。

第四步，战略放弃。传统的授课，老师所有的知识点都要讲到。但我们如果测试到学生的文言文比较差，但他学习文言文的时间需要特别长，可能每学10小时，只能提高1.5分。而考试时间仅剩2个月，系统就会让学生暂时放弃文言文学习。这就好像AlphaGo一样，在某块区域它不跟李世石纠缠。李世石高兴地吃了几个子，最后发现失去了整个江山。

第五步，追根溯源。一个知识点可能有30多个前序知识点，比如人称代词没学会，形容词性、名词性物主代词也一定学不会。不同知识点之间几百万种关联，在传统教育中很难梳理清楚并且应用。

归根结底，有AI介入的学习过程，是一个动态的、不断博弈的过程。AI相对于人的优势在于，它不会陷入到眼前的战局中，而是会实时地、冷静地做各种各样最优的选择判断。

36氪：要建成这套复杂的AI系统，背后的技术原理是什么？

栗浩洋：在测试中完整覆盖一个9年级学生的知识点，可能要三天三夜才能穷尽。我们却能在不到两小时内、用极少的题准确地测出学生掌握和遗漏的知识点。我们主要是基于六个理论体系：

第一个叫做知识空间理论。我们把知识根据难易程度、重要性、认知层次进行分级，对学习内容建模，构建“知识图谱”，梳理知识点间的逻辑和认知相关关系。

第二个叫做贝叶斯理论，它讲究依据经验和信息动态地看问题。比如一个学生以前背过2万个单词，同时考虑到他是一个学霸，词汇量不太可能遗忘到8千个单词以下。那么，系统会给每一个不同难度的单词一个他可能的掌握概率，和普通学生的概率是不同的。

第三个叫做信息熵理论，这是信息论中的说法，讲的是从测量学看，信息是可以量化的。我们利用信息熵理论，可以通过检测部分重要知识点快速逼近学生的知识状态水平，再围绕这个基本层级做反复的精细化测算。

第四个是数理统计理论，比如你知道“tiger”（老虎）这个词，那么你知道“Thank”、“Hello”的概率就很高。我们对几万个知识点都做了类似的渲染和概率分布。好比AlphaGo，它也会走错棋，但它会不断逼近相对最优解。通过这种概率渲染，尽管我们只取了1%的题，但准确度仍旧可以达到90%以上。

第五个是机器学习技术，依据不同学生的个性偏好、学习习惯和学习风格，推荐最匹配的学习内容。有些学生喜欢轻松活泼的内容形式，有些学生喜欢严谨的风格，AI系统会记住不同学生的偏好推荐最合适的。

第六个是遗传算法，规划最佳的学习路径，最大化学生的学习效率。该算法模型会考虑到学生所要完成的学习目标和学生当前的知识状态，推荐最佳的接下来学习的知识点，并依据学生不断变化的知识状态实时动态调整路径规划。

36氪：你举的都是英语的例子，数学等理学科目，是否也能套用到这个理论当中？

栗浩洋：数学和物理使用AI系统其实比英语要简单十倍。因为数学的知识空间关联性非常强。比如二元二次方程你会了，一元二次方程你肯定会，方程移位、加减乘除、求根你也肯定掌握了。

虽然数学也会有一些虚线关联和概率关联，但整体上，数学的强关联非常清晰。所以海外做智适应教育系统，都是从数学开始的。

36氪：对综合知识点，AI系统如何考察？

栗浩洋：我们把知识点拆成“纳米级”后，又把它们连成了“矩阵式”结构。比如英语中，冠词的十一种用法你会了，但结合现在完成时或者一个定语从句，你可能又不会了。

我们把这些复合性的知识组成了从L2到L7级的知识点，L7级别的知识点意味着7个知识点或者能力要求的混合。学生不只学习纳米知识点，还要分级学习，这个牵扯到的复杂度更高。不过，对人来说，越复杂的事越难完成。而对AI来说，越复杂的问题，它的学习效率越高。

36氪：除了需要记忆的知识点，类似时事理解、综合认知等需要复合能力的问题，AI系统是否有办法覆盖？

栗浩洋：比起真人教师，AI做这种事更简单。比如这个学生对时事理解差，那么时事理解包括好几个层次：政治现象、社会现象、情感现象，可能还有商业现象。AI可以测出你是对哪种现象不敏感，缺少哪部分就补哪部分。

另外，我们在AI系统里引入了“能力学习”，这是在全球的制式系统里都没有的。我们通过布鲁姆认知层次理论，在去年把语文拆成了6种能力。今年3月，我们又拆到了27种能力。现在已经梳理归纳了100多种能力。未来系统自己会发现更多的能力。

比如“微小词的区分能力”，高尚和崇高、乐观和激进、激进和冒险，很多人对其中的区别不敏感。物理和数学，也包含几十上百种种能力，比如实验能力、空间想象能力、实景想象能力、加辅助线能力等等。

能力是能够训练的，而且能力一旦掌握，将帮助学生自主学习，终生收益。

36氪：你曾说乂学教育的AI系统构建成本要上亿元，为什么？

栗浩洋：目前我们已经投入了一亿多元，还只完成了一小部分。首先，AI科学家的成本非常高。我们的AI专家除了了解人工智能知识，还要是教育学、心理学、认知学的专家。我们要求AI专家既是海外名校人工智能的博士，又要在教育领域的AI公司工作过5年以上。所以，一个科学家的成本，相当于我们几个创始人加起来的成本。

另外，我们的教学内容研发成本非常高。我们的AI题库，最初考虑过用市场上现成的题，后来发现市场上大多是复合知识点的题，我们几乎找不到所需的“纳米级”测试题。

还有一部分工作量很大：如果以高考和中考的原题为标准，市场上的题库有几千万道，但基本都是垃圾题。只有最顶级的老师才有出题能力，这就是为什么有个说法叫做“高考出题人”，因为不同级别老师出的题，可能是千奇百怪、错误百出的。比如一个老师想考学生对现在完成时的掌握，结果由于这句话的一个单词超纲了，学生没看懂，造成他对学生的判断是现在完成时不会。而且，不同的地域又有不同的大纲，这都需要我们做大量的分析整理工作。

最后，测出学生的知识点后，我们还需要制作教学内容。我们是由AI系统完成授课的。需要把教学视频同样拆成“纳米级”，变成5分钟的短视频。这也是为什么我们不能用现成的教学视频的原因。时长差异还不是最关键的，传统教育讲求均衡，所有知识点都要涉及。而我们要针对学生的具体水平制定方案。

所以，我们做的事类似今日头条，千人千面。但他们的东西都是直接抓取的，不必去做采编，而我们要独立做所有的采编。

36氪：你们的AI系统引入了许多名师的经验，名师和一般的教师区别到底在哪里？

栗浩洋：首先，名师对所有的知识点了如指掌。第二，同样的知识点，差的老师可能讲3个小时都无法让学生明白，好的老师5分钟就讲清楚了。第三，只有20%的特级教师是可以教差生的。有的老师觉得自己讲得清晰明了，学霸听起来如饮甘露，但是差生听不懂。

我们的松鼠AI系统的设计团队包括大量有30多年经验、享受国家级津贴的名师。他们与AI专家共同碰撞出这套系统，经常吵得不可开交。我常跟名师们说：要把你们的每寸骨头、每寸关节全部掰碎，重塑你自己。你以前的经验全部都白费了，只有经验的灵魂允许存在。我们要用的是你的灵魂，不是你的形式和套路。

我们在引入名师的教学路径设计后，也只相当于设定一个先验值。如果发现学生学习效率不高，系统会自动转换其他的学习路径，并且不断地进化调校到趋近最优解的状态。

36氪：为什么你把乂学教育的AI系统称作策略型AI？这与其他类型AI系统的区别在哪里？

栗浩洋：人工智能大家都在谈，但AI与AI之间，有着非常深的壁垒鸿沟。我把AI的应用分为两种，一种是识别型应用，一种是策略型应用。比如商汤科技的AI是图像识别、人脸识别；科大讯飞是语音识别。他们都是AI的识别型应用。

我们则是策略型应用的AI。识别意味着答案是一定的，策略型的状态特征和条件是动态变化的，在不停的博弈，最优策略是在不断变化。我们更关注最好的教学方法和学习方法是什么，如何去应对不断变化的学习状态和知识状态。

识别型应用和策略型应用的AI区别很大。策略型应用AI更需要应对不断变化的外部条件，像AlphaGo，你出了不同的招数，我随时做出改变，要不断去靠近最优解。

36氪：你们目前积累的学生数据量有多大？

栗浩洋：策略型AI的进化需要积累大量数据，我们现在有十万个实验学生数据，同时我们还跟五六家机构合作，他们有数千万的学生。我们为他们提供教学内容，获得学生的教学数据。

36氪：你们的AI系统如何激励学生的学习热情？

栗浩洋：在“一对多”的教学中，因为是单向灌输，老师往往无法顾及到学生的学习情绪，但AI可以做到。

如何让学生觉得享受，不要让学霸感到浪费时间，不要让学渣感到学习受挫，就要不断给他提供能贴合学习边界的知识。

比如，50分的孩子我先给你51分，再给你52分的知识，他就会从成就感中获得巨大的学习兴趣。过去的教学，忽难忽易，一下就把学生的学习兴趣浪费掉了。我不认为教育是反人类的，人的求知欲是一种本能。不要打击，要不断正向激励、训练他的求知欲，求知欲就会越来越旺盛。

36氪：有了线上的AI系统，你们为什么还坚持要推广线下授权店？线下店的存在意义在哪里？

栗浩洋：AI的教学质量其实比真人教师质量好，甚至可以超过特级教师。我们有两种教学形式，一种是纯线上，老师只是在后台看看学生的情况，做一些沟通交流。另一种是线下教育，我称作“教育新零售”。每个孩子同样是做一对一的人机学习，老师教你怎样使用系统，做一些查缺补漏的工作。

现在，我们有近300家店。你可以把这些店看做是我们的4S店。不过我们的教学质量不必靠真人教师来掌握，都是靠松鼠AI智适应系统保证的。

一定要开设线下店，因为这是一种刚性需求。马云做淘宝十五年，淘宝占社会销售品零售总额只有13.7%，所有电商加起来也只覆盖了19.8%的零售。也就是说，仍然有80%的商品是在线下购买的。

除了使用习惯之外，学习还需要体验，需要氛围。网络教育的问题之一，就是氛围营造困难。未来，线上教育的比例会不断扩大，但大部分人可能仍然习惯在线下接受教育。这么大的一个市场，我们为什么要放弃呢？

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

复旦陈果：低质量的独处，不如高质量的社交，有远见的人都关注了这些微信号