九章随时问国朝游:未来步骤级的诊断+答疑,或许是个性化学习的终极答案
大模型时代,个性化学习有了更多的可能性。
来源|多知
作者|国朝游
摄|王上
近日,在多知OpenTalk第46期“教育新生态:AI学伴、AI老师来了”活动上,学而思九章随时问产品负责人国朝游以九章随时问为例,分享了大模型如何帮助解决个性化学习的难题。
在国朝游看来,对于传统的教育行业来说,个性化、高质量和大规模这个“不可能三角”是非常突出的。在大模型时代来临后,个性化学习有了更多的解法。
第一,大语言模型有强大的理解和对话能力,这就意味着可以通过更自然的AI交互的方式采集到学生的反馈和数据。大模型用于给学生“答疑”成为可能。第二,学生的学习过程,通过对话体现出来,让数据驱动的过程性评价成为可能。这样,结合大模型的理解能力以及数据采集分析能力,最后就能形成一个更个性化的解决方案。
九章随时问便是在这一背景下诞生。据透露,自2024年5月以来,“九章随时问”的微信小程序、iOS和安卓APP陆续上线,超过1/5的用户在完成讲题后,主动反馈“非常有帮助”。
国朝游透露,团队在题目级别的知识点标签上更深一步,探索步骤级别的知识点标签。他认为,未来步骤级的诊断+答疑,或许是个性化学习的终极答案。
以下为国朝游的分享,经多知编辑:
01
大模型时代,个性化学习有了更多的可能性
大家好。今天我演讲的主题是《大模型时代的个性化学习探索》。这个主题有点大,我今天会以“九章随时问”这个产品为例,从一个小切入点延展出我们的思考。
“九章随时问”是基于学而思自主研发的九章大模型研发出的一款数学搜索答疑工具。
不同行业都会提到“不可能三角”的概念。对于传统的教育行业来说,个性化、高质量和大规模这个“不可能三角”是非常突出的。
那AI如何可能打破这个“不可能三角”?
在大规模方面,AI有天然优势。在高质量方面,如何让AI越来越聪明,在各个环节上的表现越来越好,是我们一直努力提升的方向。而AI助力个性化方面,我们是怎样在一个具体的场景尝试实现个性化,这是我今天想聊的话题。
我们的思路是,我们先找了一个具体的个性化学习的场景——课后从题目练习到知识巩固的链路。在这个环节,有没有解决方案能在学生遇到不会做题的时候帮他解决?
传统的解决方案就是学生答题,答完题之后,自己看参考答案。不足之处是,答错、不会做的题目,学生只知道正确答案,解题过程依然不会,而且解析过程简略,不明白的推导步骤无人解答,只能自学理解。这时,他们已经很难通过自学来达到做题、知识点巩固的正向循环。
到了大模型时代,有了更多的可能性:
第一,大语言模型有强大的理解和对话能力,这就意味着可以通过更自然的AI交互的方式采集到学生的反馈和数据。大模型用于给学生“答疑”成为可能。
第二,学生的学习过程,通过对话体现出来,在每个步骤上的行为都被数据化,成为过程性评价的数据抓手,实现从结果评价到过程性评价的迁移。
这样,结合大模型的理解能力以及数据采集分析能力,最后就能形成一个更个性化的解决方案。
以下图的这道题为例,这是一道典型的题目。不同的学生在做这道题时,可能会在不同的地方被卡住。
不同学生在不同地方卡住,意味着他们对更细密度的知识点掌握情况是不一样的,也就是说,学生们不会的点是不一样的。如何找出他们每个人不会的点并给他们讲会,就是我们尝试做的个性化的思路。
02
定义“九章随时问”
对此,我们设想的解决思路是,当学生这道题不会,寻求AI老师的帮助时,首先判断学生是否掌握了这道题背后的这个知识点,如果没有掌握,就讲明白这个知识点,然后再回到这道题的解答。这其实是最理想的一个方式。
在这样的思路下,我们开始设计“九章随时问”这款产品。它其实聚焦了一个非常小的环节,就是学生遇到了一道题不会时,我们怎么为他讲明白。
学而思内部有非常多的老师,我们会研究老师具体是怎样给学生讲会一道题的:老师会根据学生的反馈决定应该讲什么内容、讲到哪一步、用什么讲法,因为需要学生反馈,看学生是否掌握,这就涉及诊断能力。这些过程结束之后,需要进行题目总结、题目拓展和相似题推荐。
拆解了真人老师是怎样给学生讲会这道题的过程后,我们很自然地就能了解这个讲题大模型需要具备什么能力。
自2024年5月以来,我们陆续上线了 “九章随时问”的微信小程序、iOS和安卓APP,超过1/5的用户在完成讲题后,主动反馈“非常有帮助”。
前段时间有个通用大模型在简单数学题上集体翻车的热点。我们当天也去测试了一下九章随时问,它是能够比较好地讲出来的。这体现出,通用大模型在垂类场景下,不一定能解决得特别好。在特定场景下,我们的垂类大模型有更加专业的老师,有更加海量的高质量数据,以及各种评测来优化,我们在这方面也就做得更好。
03
未来步骤级的诊断+答疑,或许是个性化学习的终极答案
我们之前在做知识点标签的时候,更多地是打在了题目级别,即“这道题你会了,这个知识点你就会了”,要是判断不准,再多测几道题,看看会不会这个知识点。
但是如果用户和AI是有交互的,我们能够采集这道题每一步的讲解数据,判断学生到底懂没懂。因为一道题背后,我们能够对它的每个步骤都打上一个非常详细的能力标签、知识点标签。
基于此,我们就可以得到一个非常个性化的每个学生的知识图谱。同样是这道题,不同学生某些知识点掌握情况是不一样的,后面的讲解策略、讲解方式、讲解内容是可以做调整的。这会让九章大模型在这个场景下更加个性化。
其实在大模型场景下做个性化学习,未来其实还有非常多的事情要做。我们也希望能够和业内更多的伙伴在这个场景做一些更多的交流和探索,持续克服大模型在学科领域,特别是在数学领域,天然比较难攻克的方面,以达到一个非常好的效果。
我今天的分享就到这里,谢谢大家。
04
Q&A
提问1:大家好,我是来自新东方的AI产品。我的疑问有两个,一个是学而思为什么会选择从数学场景做大模型,因为大模型本身在数学的计算推理上有一定的缺陷,那么就意味着我们在解题过程中很有可能会出错。另外一个问题是,对于大模型目前在计算推理方面的问题,咱们目前是有一个什么样的方案进行解决?
国朝游:我们选择数学是基于几方面考虑:
第一,它确实很难,也意味着我们在这一块有更多的可能性,我们希望能够突破这个难点。并且做数学大模型在讲题、答疑、批改等应用场景非常广阔。
其二,学而思是以数学起家的,在数学方面也更有优势。
关于如何解决大模型目前在计算推理方面的问题,我们从模型训练到后面的计算推理,做了非常多的算法尝试和处理,这样的case非常多。
提问2:我在一家创业公司,我们现在也在做一些AI答疑产品。我现在遇到的一个问题是,用户在问问题的时候,其实是有文字和语音交互的。语音有时识别不准。如果跟大模型交互的话,识别不准确时,大模型还会根据上下文做一些推测。但是现在没法借助大模型对TTS的上下文做判断,以校正TTS。所以我想问一下,你们是否遇到这块的问题,以及如何解决?
国朝游:这都是一些非常实际的问题。首先,语音和OCR都是绕不开的问题。第一点,其实在大模型时代出现之前,语音的TTS的字准率其实一直都有个上限。也肯定是有些办法能够提升的,这在行业内也是比较公开的。
另一方面,判断它到底是什么。我们也发现,它不一定每个字都识别得非常准才能够判断。有些时候有一部分的词可能不准,但整体连起来是能够理解的。
所以其实是从两个方面解决,第一个方面就是怎样让它变得更准,第二方面就是本身让模型去学习在不准的情况下如何理解。
提问3:您好,我是高途的AI教育的产品。我其实有点疑惑,在学习中,意图的识别怎么做?因为,意图识别非常困难。第二个问题是,在刚才您分享的那个案例课程里,根据学生回答,咱们这个模型好像是可以识别出学生哪个知识点没有回答对,并且针对这个知识点,给他做一个启发式的教学。那怎样在这个过程中精准地找到哪个知识点不对?因为现在很多教育公司做的方式是你这个问题答错了,我根据这个答案反过来去告诉你这个过程应该是怎么做的,最后就把所有的知识点1、2、3地列出来,那您是怎么实现在这个过程中直接精准地找到学生哪个知识点有问题呢?
国朝游:关于知识点这一块,首先,我们内部其实有非常多的老师讲题、上课的数据。其实在这个方面,结合他们那些和我们的数据的标注,我们能够让模型去学习到学生这样的反馈代表他背后是什么状态,知识点掌握得怎么样。所以这一块其实也是通过大量的学习逐步实现的。
关于学生的意图,如果对比真人老师的话,首先最基本就是他问了一些问题后,学生说了什么内容,这是靠语音识别学生意图。其次,如果是真人场景的话,可能还有别的辅助识别意图的方式,比如观察学生的表情,看学生是不是反应时间很长甚至是不回应。你能采集到什么样的数据,就决定了你用哪些东西综合判断他的意图是什么。
核心取决于怎样在不影响用户参与学习和答疑的过程的前提下,采集到尽量多的数据,就可以把这些数据利用起来,分析他的意图是什么。
提问4:我想问的是,怎么让这个模型能够基于答案解析,把这个解析拆成一个一个的步骤,还原到老师解题的过程,再用大模型跟学生引导式的互动,帮学生把这道题解出来。比如学而思有很多课程,有很多讲题视频,能够给到模型去学习,这里面可能也需要老师的一些标注的数据,我非常好奇,怎样把老师的思路给到模型,让模型去学习老师的讲题思路,怎样评价这个模型的效果?
国朝游:关于怎样把老师的这个思路给到模型,目前,我们通过一些高质量的数据给到模型,让模型去学。其实这个问题就变成了怎样拿到这些数据,那我们自己有很多的优质教研资源,比如题库,比如讲题视频。另一个方式是,也有一部分可能质量并没有达到要求的数据,那就依靠标注。我们也投入了很多的资源在标注这一块。第三个方式是,用AI生产数据。AI生产数据的量是很大的,但问题是AI生产的数据质量到底行不行,能不能用于重新训练。这是一个非常大的难点要去解决。但是如果你没有前面那两种方式,只是用AI生成数据去训练模型,大概率最后是不可行的。
相关阅读:
点击阅读原文购买↓