最近,在短视频等内容平台上,最火的创业明星又是马斯克。这次不是因为花边新闻热度攀升,而是他的端到端大模型,让特斯拉的自动驾驶终于摆脱了算法规则下,需要穷尽Corner case的模式,仿佛为车机安装了感知到决策的大脑。这是第一性原理的胜利,在马斯克眼中,自动驾驶不能依赖激光雷达等昂贵的“拐杖”方案,而是应该使用直接且便宜的视觉感知方案。所以特斯拉一直往这个方向探寻,导致其能创造端到端这一颠覆性技术成果。而在教育界,第一性原理同样被一家杭州AI企业推崇。这家公司名叫精准学,最近刚刚获得阿里近2亿元投资,逐渐成为AI教育的关注点。精准学创始人杨仁斌曾是阿里“最年轻的技术总监”,创业理想是利用AI实现“真人版一对一辅导教学”。
在大家眼中,家长和教师辅导孩子一对一写作业,是最难解的场景,每个家长都因此崩溃过。杨仁斌曾在此前采访中说,传统的一对一教学模式,一线城市每小时收费高达400~800元,“家长都知道一对一效果好,但全世界付得起这个钱的家庭比例很低。”
而端到端语音大模型成为这一问题的最大突破点。精准学宣布,公司已在AI语音交互技术上取得领先性的突破,成功训练了中国首个语音端到端大模型“心流知镜-s(V02)”,可直接实现语音输入-语音输出的交互,使其更适配辅学场景,使大模型达到“真人老师”级别的自然对话交流体验。
“心流知镜-s(V02)” 使用端到端语音结构,避免了级联ASR+LLM+TTS方式额外延迟,同时也更好的改善纯文本模型损失的情感节奏等丰富信息,接近人类的语音交互体验。至此,AI硬件也成为实时互动的万能教师。这样的教育大模型机器,正成为一个爆发的市场。数据也可以佐证,据艾媒咨询统计,2023年,中国教育智能硬件市场规模达到807亿元,增速接近30%。中国商务部数据显示,AI学习机的销售额在今年上半年增长了136.6%。
这一赛道的头部厂商包括科大讯飞、百度、学而思等,但市场并非只属于巨头。精准学合伙人张宁表示,“端到端语音大模型正成为AI教育的主要入门门槛。”。精准学率先推出端到端语音大模型,成为AI教育界的重要创新成果。接近千亿的市场,大模型学习机能再造一家小米公司吗?“你如果对着AI学习机读Apple,可能你的发音不准确,但发音近似,转到ASR里面的结果就是对的。但你把语音的信息,降维到文字之后,有些所谓的言外之意就消失了。”
张宁对AI鲸选社表示,此前行业在试图模拟老师的时候,无法解决信息传递准确的问题,人的言外之意、情绪以及讲话的重音之类的情况,基本都被忽略掉了。
这是在传统AI时代,很难解决的问题。因为传统AI学习的过程,是依靠拍照算法识别,机器学习解析,语音反馈等环节,中间要经历CV、OCR、TTS等多个系统,内容在多个AI系统传递中,注定有折损。所以当时的很多AI学习机效果并不好。 精准学对这一问题有很深的感悟,在2022年的时候,精准学尝试做了一款小学语文作业批改的AI产品,当时用了macbert等等模型组合,整合了很多方式的各类NLP单任务AI模型。但依靠这些技术推出的产品,即使是小学的语文题目,比如病句批改、语法纠错、阅读理解、300字作文等场景下,很多死角问题解决得还是勉勉强强。 当时那个产品没有在市场上推广,只找了1000个用户去做了一下测试。然后2022年底GPT横空出世后。精准学用GPT大模型迭代测试了这款产品,“一下子把所有的这些任务,全都碾压性的解决掉了。” 对当时的精准学是一个很深刻的触动,张宁形容,“被历史车轮一下子碾过去的感受。”张宁说道,不是当时产品做得不好,而是相比大模型的生成式AI,技术迭代太大了。“我们仅用一周时间就决定,All in AGI ”,直接做语音大模型,并以此做出深度互动的AI Native产品。如今市场上,大模型学习机已经并不鲜见。科大讯飞、网易有道都推出了自己的AI学习机产品。值得一提的是,精准学国内首发端到端语音大模型,并且或是全球首个开源的端到端语音大模型,并且这一成果将马上应用于新的学习机产品。精准学一直在教育科技赛道,这要求其必须具备深度的AI教学能力、及时的语音对话反馈能力,还要有完备的软硬件结合能力。具体来说,在解决前文提到的Apple发音问题上,必须在输入到输出的多模态大模型系统中,依靠中间的大模型解决所有的问题,而不是划分出多个AI系统解决。这一目标下,精准学推出了“心流知镜-s(V02)”。“我知道大概国内有七八家团队在做相同的事情,但我们在行业中快速做出来了”,张宁介绍道。这不仅是创业公司动作更敏捷的原因,还有对教育市场的理解。目前在互联网教培市场,有拍照阅卷、教师排班等助教市场,也有一对一辅导等自学市场,后者市场在教培新政后,对AI的能力需求越来越大。AI需要像真人一样的辅导能力,才能被市场接纳。精准学在AI拟人教师方面,已经有两年多的产品经验,借助端到端的语音大模型,实现堪比真人教师的交互效果。张宁认为,他们所在的业务场景,决定他们对新技术更加渴求。
在特斯拉用端到端,将自动驾驶带入新时代后,精准学公司也在AI语音交互技术上取得突破,成功训练了中国首个语音端到端大模型“心流知镜-s(V02)”。张宁介绍,精准学是基于通义千问开源的Qwen2-MoE-57B训练,打造的融合文本、语音及情绪的实时多模态教育垂直模型。“心流知镜-s(V02)”的最大优势,是避免了级联ASR+LLM+TTS方式额外延迟,同时也更好地改善纯文本模型损失的情感节奏等丰富信息,接近人类的语音交互体验。实现语音输入-语音输出的实时交互后,更适配AI辅学场景,使大模型达到“真人老师”级别的自然对话交流体验。这为精准学的AI辅学机Bong系列带来了3方面的优势:
第一是信息压缩和交互延迟大幅降低,与AI实时对话成为可能。端到端带来的变革,是去掉ASR和TTS那些单独的模型处理步骤,直接输出语音结果。这不仅让语气和语感等内容也被AI理解,信息得到全面的处理,也让AI输入到输出,从以前的延迟数秒降到几百毫秒内,人类在几百毫秒内是感知不出差别的。第二是AI硬件具备了学习能力,无论是增强记忆还是学习方法等特色内容。张宁讲到,为什么这个世界上人会去买错题本和学霸笔记,他要买的其实不是那个本子,他要买的是学习能力最优秀的学生,他的学习方法或者是能力。精准学一直探索的精准学习法,实际上就在坚持这一理念,在大模型的帮助下,AI的记忆能力和模仿能力都大大增强,帮助每一个孩子用科学精准的学习方法,针对性AI辅助教学,成为可能。第三是对垂直场景的解决能力更强,通用大模型弱点被克服。通用大模型在教育场景中遇到的问题,是很多专属知识并不了解。“通用大模型,念个电子书,念一个什么电视剧台词就很好,然后或者让他唱个歌,模仿个名人都没有问题”,张宁说道。但一遇到那种带数学符号或者带分数线,根号之类的题目,通用大模型很难正常读出来。而“心流知镜-s(V02)” 用16万小时的教学语音训练,在很多知识教学方面更擅长。目前市面上,AI学习机琳琅满目,价格动辄2999元到5999元。而真正搭载大模型学习机的少之又少,首发搭载端到端语音教育垂直大模型的学习机,使其落地上述全部AI优势,正是精准学的努力目标。实现真正的「AI名师1对1 」,市场也会因此而格局生变。背后原因,是在墨水屏的学习机热度过后,市场正迎来对大模型学习机的热度。五千元左右一台,每年市场需求在2000万台,千亿AI学习机市场会诞生新的“小米”吗?从目前看来,这个市场很难被大厂和初创公司占领,在张宁看来,今天重新建一个教学机构,然后积累十万小时数据,再开个新的AI公司,这条路径走下来已经没有时间冗余。精准学在过去的6年创业时间中,与「好未来学而思」等教育大厂一直战略合作,技术系统累计被全国数千教育培训学校引入和使用,积累了16万小时的教学数据和诸多AI教育成果。另外,传统的教培机构也难以转型,他们最缺乏的是技术整合能力。精准学过去一直为高思等知名教培机构提供AI个性化练习服务,是教育行业更懂技术的角色,因此能快速推出教育大模型。
而对于互联网教培机构来说,很多已经融资上百亿,谁对AI大模型等技术更敏感,动作更迅捷,谁就更有机会成功。精准学创始人杨仁斌,过去参与过阿里云“飞天”项目,进入过阿里集团战略部。在阿里经历了“All in无线”的时代,帮助淘宝实现了移动化转型。在AI时代,精准学更有决心也更有底气面向大模型时代转型。加快收敛和缩短训练大模型的时间,更早一步推出自有的垂直大模型。教育界更懂AI、AI界更有垂直数据、教培市场里更懂产品,构成了精准学的“铁三角”。而精准学的理想,就是通过搭载端到端语音大模型的AI Native学习机,让AI辅导更加普惠化。这会让精准学的AI辅学机有诸多优势,首先是能够把经典例题讲清楚,而不是一味追求讲题数量,这是大模型带来的生成式内容优势,不再是此前的固定的输出模式,生成AI内容能回答孩子提出的不同问题。然后是,实时调整学习内容和难度,引导学生进入最佳的学习状态;一直以来,教学形式还是学校45分钟的课程,很多老师能够声情并茂地讲课。而现在,AI通过模拟人类的情绪和语气,营造极强的真实感和临场感。Bong系列AI学习机已经实现20多种个性化教学风格,模仿各类名师的讲解方式,学生对着机器学习不再枯燥无趣。对于当下,AI学习机是否已经到了iPhone 4时代,张宁认为目前颠覆性技术刚刚呈现,技术迭代和产品融合都需要时间,但AI学习机已经距离 iPhone 4时代已经不远了 。在张宁看来,现在大概每五年,AI算力上两个数量级没什么问题,那就算它一个数量级也有十倍的差别,这样成本也在指数级往下降。AI能力同时在成倍的能力上涨,AI模拟真人辅导教学的效果也会越来越好。家长从手把手辅导中解脱,放重心在学习效果监督上。届时,AI就真正成为孩子的学习好伙伴。AI鲸选社创建了行业高质量的『AIGC社群』,500位高质量行业人士已经入群,聚集上市公司CEO、所有互联网大厂、创业者以及投资者、媒体人等。我们组建了高端技术产品交流群、AI热点交流群、创投趋势交流群,欢迎AGI行业人士入群。添加vx: xhyshow,注明真实身份。