1000 万个“AI 名师”:用机器算法“解剖”应试教育
编者按:“AI 创造的是 100 万个、1000 万个名师”,“AI 替代了名师 70% 的必杀技”——就是这样两句话,在整个采访过程中,论答创始人王枫分别重复提及了 5 次。某种程度上,对于那些为在线教育提供人工智能解决方案的公司来说,这或许说出了创业者们利用新工具开拓大陆的心声。
说出这些话的王枫是有底气的,更实际的则是探究其背后的具体根源。如他所言,是骡子是马,拉出来遛遛。
以下为王枫口述,我们整理:
一
我做了二十多年在线教育,现在做的是以前梦寐以求想做却做不到的系统。2002 年我在佐治亚大学读教育技术学博士,做学习系统的研究与开发时,没想到会有 AI 这么靠谱的技术。
AI 在教育里一个很成熟的应用是“自适应学习(Adaptive Learning)”,其实在九十年代就开发了出来,当时在卡内基梅隆开发的叫“认知向导”,纽约大学的叫“ALEKS”,但那时计算机运算能力没这么强大,算法不一样。
一直到 2008 年,美国 Knewton 公司成立,前后融了 1.55 亿美金,把自适应学习做到了大规模商业化应用,2011 年可汗学院做出了美国最早的学习管理系统。
虽然技术以前是在美国发展,但其实生不逢地, 因为 AI 最适合的是有明确学习目的、可量化的应试教育,所以不仅仅是技术和算法,它必须要和内容、应用场景结合起来。
Knewton 以前走过的最大弯路是算法、系统、内容都做,后来发现系统、内容都不挣钱就只做算法 API 引擎,让任何内容都可以 adaptive。听起来理念是好的,事实上根本没法做到,而且即使做了也都是表面的自适应,没有真正深入到让学习内容、学习过程通过算法、系统来产生价值。
在线教育在中国兴起是在 2013 年,大家开始知道了 Knewton、自适应学习,大量资本和互联网人才开始进来了。
二
2016 年 1 月 8 日,我记得很清楚,我们团队开发出了 Knewton 级别的算法,我还在产品上做了中考英语必考的专题,当时感觉系统后面好像有一个老师围着你读题、出题,很震撼。虽然那还是比较小的知识图谱,但只要几道题系统就可以把 20 几个知识点全部摸清楚。
论答的每个知识图谱平均 3-5 个月时间才能做出来,它是由老师团队和数据科学家团队共同合作来完成。因为人类老师思维的图谱是机器无法理解的,需要他们一起把它拆解为算法可以理解的语言,然后进行匹配,如果后面有大量数据进来,知识图谱还会进行学习和调整。
我们现在已经做了成百上千个知识点的大图谱,这之间的差别在于每增加一个知识点,系统的运算量都是呈指数增长。比如每个知识点有两种可能性——掌握和没有掌握,19 个知识点掌握的可能性就是 2 的 19 次方,等于 524288 种,181 个知识点就是 2 的 181 次方,跟宇宙的原子总和差不太多。这必须通过算法进行优化。
我们的智能测评系统里有 1700 多个测评专题,你能想象到的所有知识点已经基本覆盖了,这一步的目的是找到孩子的学习问题。以中考代数为例,在传统的纸质试卷中,一个知识点 3 道题,74 个知识点需要 222 个题,每个题 3 分钟需要 666 分钟(11 小时),才能达到 90% 以上的精准度。课外培训 5-6 次,一周 2 个小时,就需要一个半月的时间。但现在已经平均只需要 8 道题,每道题 3 分钟,不到半小时就可以摸清中考代数 74 个知识点,精准度在 92% 以上。
第二步是推荐下一步学习什么,背后用的是“学习路径推荐算法”,应用到了智能学习这款产品中。比如 A 学生可能推荐一元一次,B 学生可能推荐因式分解,C 学生可能推荐小学的乘法快速运算。外面很多所谓的自适应学习其实是基于简单的规则,比如一元二次方程你做错了,预先就会给你推五个一元一次方程,再推五个一次分解的题目,跟算法引擎相比差别很大。
第三步,在最短时间内攻克知识点。一个好老师知道你现在就该学一元一次方程,帮你在最短时间内边做边学边练搞定这个知识点。我们的算法是做 3-5 个题就能准确判断一个学生是否能攻克,然后推荐下一个合适这名学生学习的知识点。
可以说,名师 70% 以上的必杀技都被我们的系统替代掉了。去年,我们招了一些教学老师和一两百个学生,来把智能测评、智能学习这些产品都用起来。现在一个没有任何教学经验兼职大学生老师,平均只需 3-6 小时的在线培训,配合我们的系统就可以达到优秀老师的教学水平。
所以 AI 能创造的是 100 万、1000 万个名师,在最短的时间内就能找到每个孩子的学习问题,然后有针对性的进行教学,把孩子的分数提上去。
三
教育行业对 AI 底层技术要求非常深,我们三年来踩过不少坑,那不是简单靠砸钱就能够搞定的。
教育的深度技术类产品很难真正完全标准化,每个学科,还有版本、地区都不一样。目前我们只有 6-9 年级的英语和数学试题,为什么不开发更多学科?因为背后是巨大的系统工程,找老师、教材、内容是很轻松的事情,但做每个学科的内容需要从知识图谱、算法、内容、大量数据进行不断的调适。
每个学科也没有一成不变的算法,英语和数学不一样,英语的听力、语法、阅读都不一样。后台百亿级以上的运算,在英语里面只有语法才有真正的知识图谱,听力和阅读没有知识图谱。
计算机行业有一句话叫“进去的是垃圾,出来的也肯定是垃圾”,算法、知识图谱再精准,匹配的题目如果对不上号,测出来也是不准的,最后还得根据数据来鉴别哪些内容是高质量的,难度区分度是怎样的。
本质上说,算法引擎、系统、内容垂直整合才是完整的人工智能学习系统,缺一不可。论答的系统是个有机体,已经不是靠简单的算法能够解决的,而且越往内核走就越难,这是核心竞争力。
论答不是培训机构,这里面的水挺深,我们的基因更适合做技术,输出综合性解决方案,也不是简单的卖技术。我们现在除了技术要不断开发外,我们要做的是开发模式的复制,其次我们不但要自己把它做起来,而且还要家长认可这种模式,这个过程不会太容易。
四
应试教育在中国有 1 万亿元的市场,但像学而思、新东方这些上市公司加起来不到中国教育市场份额的 3%,为什么他们都吃不下来?
因为根本没有那么多好老师,更大的悖论是,中国有 40 多万家培训机构,好老师都自己出去办培训班了。这也说明这个行业是依赖老师的重服务模式,虽然有了 AI 之后行业要整合,但小机构不用那么猴急觉得明天就被吃了。
像我们这样的 AI 公司初期研发成本投入很高,但未来的应用成本一定非常低。如果只是几百个学生用我们的系统,一个学生的研发成本就几十万,但如果是未来 1 万家培训机构,一年 1 个亿,一家机构的成本才 1 万元。对用户来说,以前名师一堂课需要 1000 元/小时,我们的系统可能只需 50 元/小时。
所以下一家百亿美金以上的教育公司是由 AI 技术驱动的。2002 年到 2015 年的在线教育只是改变了教育在交易和传播上的模式,没有带来质的变化,但 AI 开始从根本上改变着教育的生产力。从培训行业开始,接下来中国教育的模式在 3-5 年内以机器为主的学习会成为主流,低价值、重复性的劳动一定会被机器替代。
不过,AI 的价值潜力现在释放了还不到 1%,是 0.01-0.1 的过程,但这已经无比巨大,一点都不夸张。我觉得我们现在是一个小型核电站,电只能供应周围这一片,等到真正开始发现核爆炸、核聚变的时候,就完全不一样了。
10 年前,刘强东说京东要花几十亿美元做仓储,没人相信,但现在看来是理所当然的。今天去想象 3、5 年后 AI 老师的价值可能觉得不可思议,但到时当它成了主流模式之一,你也会觉得是理所当然的。
题图:marketingland
本文经授权转载自AI科技大本营(ID:rgznai100)
热 文 推 荐
☞ 揭秘清华 AI 学堂班:姚期智担任首席教授,2019 年首批招收 30 人
☞ 普通家庭走出信息学才子,抱病参赛夺世界信奥亚军 | 人物志