查看原文
其他

讯飞大数据研究院谭昶:讯飞大数据的实践与思考【上】| 附PPT下载

谭昶 人工智能前沿讲习 2022-04-16


导读

大数据的浪潮现在好像被人工智能的浪潮盖过去了,它到底火还是不火,到底应该朝哪个方向发展,来自科大讯飞大数据研究院的谭昶博士有自己的想法和思考。本文中谭昶博士依据讯飞大数据实践的经验指导企业如何做大数据,并着重介绍讯飞如何运用大数据的方法扭转了教育的思路。

注:本文按谭昶博士于第三次人工智能前沿讲习班上的报告<讯飞大数据的实践与思考>进行整理发布。

作者简介

谭昶博士,科大讯飞大数据研究院的副院长,中国计算机协会大数据专委会的委员,主要从事数据挖掘系统和推荐系统的应用和推广,曾经为中国移动、北京铁路局以及众多保险公司提供大数据咨询技术的服务,是一位来自学术界的,同时也是来自于IT企业的大数据分析专家。目前负责科大讯飞智慧城市、计算广告和个性化推荐等方向的大数据技术研发及推广工作。

科大讯飞是人工智能企业还是大数据企业?

整个中国语音服务市场大概70%以上是由讯飞的云平台提供服务的,包括大家在淘宝、QQ、京东手机的语音搜索的麦克风,后面提供服务的都是讯飞。讯飞是国内一家比较低调的人工智能和智能语音的企业。人工智能企业为什么也要做大数据?大数据的浪潮现在好像被人工智能的浪潮盖过去了,它到底火还是不火,到底应该朝哪个方向发展,很多人都是工业界的,应该有自己的想法和思考。

讯飞的大数据,从语音开始讲。语音上面最主要的技术是深度学习。搞一个复杂的深度学习模型,填进去一堆语音数据,好像就得到非常好的东西。我们首先看填进去的数据有多大。一般填进去多少数据呢?填10万小时的语音数据,对于讯飞的训练工作来说是非常正常的。填进去这么多数据以后我们得到什么东西?在讯飞开放平台上我们每天为大家处理30亿次的语音交互,准确率要超过97%。这样一个东西在干什么?我们有了一个很好的语音识别模型以后,实际上还是在处理海量的数据。从这一点我们就看到了,你要有一个很好的人工智能的模型,需要用大数据去训练它。你要处理海量的大数据,很多时候必须要使用人工智能的模型或者技术,在这个过程里面他们是相辅相成的。但是这里面有时候大家会把人工智能换成机器学习、深度学习,这些概念是有相应交叉的,我们在交叉过程里面不要忽视了,最重要的是在于你用什么模型挖掘什么数据,智能化程度和数据里面挖掘出来多少价值的问题。虽然我们是一家人工智能的技术企业,在这个过程里面就已经积累了非常多大数据,这些大数据就反馈到我们的实际工作里面,产生它的价值。

企业怎么做大数据?讯飞的大数据实践方法论

在人机交互领域,我们的语音云开放平台每天30亿次交互,这些数据可以用来进行新的广告投放。讯飞在语音开放平台的同时也提供了广告平台,主要做广告投放。在教育方面,我们可以提供机器的全学科阅卷。我们积累了学生学习过程的数据,又可以对学生进行个性化学习辅导和推荐。我们在智慧城市这种政府服务里面,政府服务里面有一个非常有意思的事情叫做生存验证。大家现在还没有老到领退休金的时候。大家知不知道自己父母辈或者爷爷辈领退休金的时候有一件事非常重要,每年到社区里面做退休或者社保人员的生存验证机制。这个事情很简单,你拿一个当天的日报,拍一张照片,或者录一段录像,说这个人在干什么事情。这个事说起来又很复杂,你要让老人很辛苦的跑到现场,对着工作人员说我是谁、我还活着。这样的事情怎么用人工智能的方式解决它?怎么用大数据的思路解决它?很简单,我证明他是一个活着的人,我们可以用图像识别、人脸识别,我们说他是活着的、真实的人,验真、验生。我们可以把政府数据库里面的相应数据打通,证明这个人就是他。两个结合起来之后,就可以远程的做人的身份验证的问题,可以减少非常多的工作量。

    

讲到一个企业做大数据,应该怎么做?我们前面更多讲的是我们通过人工智能的技术积累处理大数据的能力,我们通过人工智能的产品和服务也积累了很多用户大数据,这主要是说大数据资源的问题,你有资源以后下一步是什么?你要有一个非常好的平台,能够用工具、平台去处理大数据。在平台之上还要有什么?你要通过大数据进行变现,进行业务能力的提升,你需要有具体的业务,你需要有大数据产生的创新的业务,这些东西集成起来才是一个企业通过大数据把价值链打通之后能够获得的收益。


稍微把我们的优势过一下,这是我们讯飞做大数据时候的战略思考过程。首先人工智能和大数据有没有关系?有。有没有大数据资源?有。有了大数据资源怎么办?讯飞的语音云平台,覆盖8.9亿用户,月活量2.36亿,日交互次数30亿次。讯飞输入法4亿用户,月活超过1亿。我们还有一些其他的移动互联产品和合作伙伴等等。


第一点:非常丰富的场景。语音这个技术说起来非常简单,但是好像没有什么能赚钱的地方。语音到底在哪里赚钱?聊天机器人不赚钱,智能家居不赚钱,讯飞的策略是把语音技术几乎用到了我们能够想到的每个场景里面。应用到这个场景里面我们就拥有了非常丰富的场景,无论是手机端移动互联网、教育端、生物服务、运营商服务、企业服务端,我们都有很多语音的SDK或者隐形的植入,这些植入为我们带来丰富的数据的回流。最后一点,身份验证、数据比对,有非常多处理大数据的手段。在这样的优势之下,再看一下我们自己的大数据平台。我们现在有15000多个语音应用,20万开发伙伴。如果有人说想用语音技术解决一个具体问题,可以直接用我们的免费服务。


第二点:基本的大数据处理平台。你有了资源,要把它利用起来。你有了钉子(资源),你要找一把锤子;你说这是一座金山,你要有一把铲子。对于大数据来说,最重要的铲子或者资源是什么?就是基本的大数据处理平台。这样的平台讯飞做得很早,我们当时没有意识到是大数据平台,当时我们叫知识处理的平台,就是处理云平台的认知数据,每天产生100T的数据,搞数据平台处理一下。处理过程中我们发现,这个平台越来越重要,所有业务产生的数据都依赖这个平台去处理,所有业务数据汇聚到这个平台之上,企业内部平台打通了、共享了,企业内部平台共享之后又可以做很多事情。举个很简单的例子,我们输入法的程序和机器人的程序,如果两个部门或者两个团队在做,他们一开始没有意识到这个要共享,业务过程里面就是这样。做出来之后,我们发现数据最后回流到同一个平台上面,我们在一个平台上把两个数据融合起来做,会发现什么有趣的东西呢?我们发现手机用户靠机器人,这个机器人干什么事情,这个手机拥护和机器人之间建立什么联系,这个联系可以做什么?做推荐?做广告?更复杂一点的,我们想象手机用户有没有一些特定的需求,这样的东西非常有价值。你实现了这样的数据共享之后,就发现还有一个事情可以做。我们可以直接在平台上面处理一些复杂的数据,可以把现在人工智能处理的能力跟平台结合起来。

    

第三点:处理非结构化数据。我们讲传统的Hadoop是处理日志型数据、半结构化数据比较多,传统的结构化数据都是在Hadoop上面有相应的结构。但是有一点是没有的,图形、图像的数据,是非结构化数据。这些数据更多时候是要使用专门的GPU架构来进行深度学习的,讯飞刚好在这方面有自己的优势和心得。既然是大数据处理的平台、大数据计算的平台,我们能不能在同一个平台里面把混合架构更加复杂化?我们既可以处理结构化的数据,做结构化的数据库,又可以处理半结构化的数据(日志型的数据),还可以处理非结构化的数据,加上GPU,怎么把GPU和CPU资源混合调度好,整个调度过程是非常有趣的事情。


讯飞教育大数据实践

说句实在话,我们认为如果讯飞在这个领域做的是第二,在国内没有一个公司可以说做到第一了。为什么我们有这个底气这么讲?我们首先看教育大数据里面数据扭转的整个思路。


数据扭转的整个思路里面,最重要的一点是学生学习的过程和老师教育的过程,教与学的过程数据能不能有效的收集。收集数据之后,第二步是分析数据,第三步是应用。分析的时候你面向谁来分析?你面向教师、学生、家长还是主关部门,你要给他们提供不同的分析结果。就像在公司里面,我们给运营、管理、财务提供分析结果,即使同一份数据得到的结果可能不一样。到第三步,数据分析过程要产生价值了,你给主管部门,主管部门看了报告会进行决策性的东西,就像公司里面管理层进行决策一样。真正产生价值还是到最终用户,还是教师、学生、家长参与到过程里面的人,他们想得到什么东西,学生基本的学习情况家长最关心,学生关心我怎么学得又好又快,我怎么成绩提高;老师关心班级甚至学校整体成绩的提升,这都是基本的东西,我们以前说“分分分,学生的命根”,我们现在讲素质教育,但是上面还有中考和高考里面卡着你,就不得不考虑在中考、高考里面到底拿多少分的问题。


整个过程我们看得非常简单,讲到教学的过程,有没有人想到过程里面最难的是哪一步?这个问题其实和我们做任何数据处理的过程是一样的,最难的是第一步数据在哪儿?有没有人想过?我们今天在这里上课,有没有人告诉我,今天上完讲习班之后有多少人得到了正面的收益,有多少人早晨没有听课、有多少人得到了负面的收益?最好的办法是做一个调查问卷、考个试,考完试之后怎么办?是不是统计分析一下成绩,打一个平均分?今天有20%的人收益高于平均分,70%低于平均分。这个过程花多少时间?我不知道大家对自己的高中、初中还有没有印象,或者对自己孩子上学的过程有没有印象。一个老师可能带三五个班级,如果考一次试,一次最小的随堂测验,在三个班上一次就是100多份问卷,一个老师盘多少。如果让他盘完之后,把所有成绩分小题、分知识点输入到Excel这种非常简单的数据处理工具里面,把成绩分析出来,最后一看,小明有10道题做错了2道,小红10道题做错了8道,每个人的学习成绩情况不一样,我应该对每个人实行什么样的辅导。我想一想,这个老师是会被累死还是会被累死呢?这个工作很多是重复性的,盘试卷是重复的,一百份试卷重复盘,统计分析成绩也是重复的。如果根据分析结果对每个学生进行个性化辅导,看起来是创造力,但实际上还是重复的。


我们讲机器或者人工智能,最大的用处是什么?并不是讲人工智能能取代人,而是说人工智能能够替代人类的重复劳动。因为我们今天并不是讲人工智能,所以我就没有讲这些概念。我们之前有一些讯飞自己的材料,人工智能不是要取代人,人工智能只能代替人简单重复的劳动,这个简单重复是随着人工智能不断进步在不断提高这个门槛。什么是简单重复?工人在流水线上拧螺丝钉,现在有机器人、机械手在拧。一张图片里面到底有猫还是有狗,人去判断的时候做简单的分类,有猫、有狗,机器也可以识别这个图片有没有猫、有没有狗。这些东西都是简单重复的。盘试卷也是简单重复的,它就是非常简单、非常重复的。你告诉机器什么样的作文是好的,它当然可以盘。你告诉机器哪个答题卡哪块涂黑了就是做对了,哪块涂黑了是做错了,它当然可以判断。


我们把考试过程自动化或者电子化的时候,你就可以把非常大的一部分教育学里面的反馈数据收集回来。当然,非常理想的一种情况就是现在讲的慕课,慕课是在线教育学。在线教育学非常简单,我在线听课,你可以快速拖进度条,我可以按摄像头看你的眼睛是不是在看屏幕,在教学过程中安排一些互动环节、在线测试,都可以知道你的学习状况怎么样。但是非常遗憾,国内大部分中小学教育上面没有办法在线教育,我们没有能力像美国人一样给所有孩子一样发一个pad,把所有教科书放到Pad里。但是我们已经有一些人工智能的技术,比如说英语考试时候的答题卡,可以涂黑涂白,机器可以把所有的选择题、判断题给判完了,这是非常low的人工智能的技术,或者跟模式识别、光点识别有关系。


高级一点的,下面一个门槛是什么?我们发现下面一个门槛是作文。有没有想过机器可以判作文?机器可以写诗,机器也可以写对联,机器能不能代替人类判作文?其实也可以,这个技术没有想象中那么难。再一个是数学里面的公式、图像,当然也可以处理,深度学习好像无所不能,暂时不说是万灵药,但是讯飞实践中发现,只要是中小学教育这样一个学习过程里面,我们可以用一种全学科阅卷的概念,一台阅卷机器,所有学生手写的作文、公式、选择题,手写的内容全部输入进去,高速扫描仪一过,所有数据就电子化了。电子化以后,你的日常作业、你的答题卡、考试区域联考的大试卷全部可以盘。盘了之后,我们就已经把整个教育学的过程数据电子化了。这里面最大的一个难点,我们不说核心技术,因为核心技术的东西我也不能讲太多。


我们就讲一点,可以看一下中高考作文评分的试点。2016年我们已经跟国家英语四六级考试委员会达成战略合作,四六级英文作文相当一部分是由机器来判卷。机器已经比一般老师判卷水平好了,我相信大家能理解,重复的无序的劳动,人去做,前面做得非常好,但是后面就乱掉了,机器不会这样。这个数据是相关度,也就是评分和最后验证分数的偏差程度。大概的概念是。如果专家来评,这个偏差和准确程度是76%,机器可以做到78%,有这样一些指标。我们通过这样的全学科阅卷的过程,让过程数据的全量采集成为现实。我们以前通过人的力量采集数据的过程,这些数据采集不到,但是现在这些数据可以采集下来。很多企业跟我们做了类似的东西,比如说海康威视是做视频的,可以在一个摄像头里面把视频行为数据变成准化数据,车牌和车的颜色这些数据可以处理。如果找一张图片可能很麻烦,但是如果精确的描述一张图片里面有什么车或者有什么车牌号就非常容易。同样的,如果我们看一张试卷,人看的过程非常困难,如果把这张试卷电子化,找其中某一道题整体的正确率和错误率就非常简单。


有了技术,解决了数据采集的问题以后,下面是一个什么样的过程?下面最大的问题在于,国内的学生,很多时候是通过重复劳动、重复练习去提升自己解题的熟练度,但是在重复练习的过程里面,很多时候老师会不加思考的告诉你说这套试卷很好,大家把它做十遍,就像我们小学的时候说这个字不会写,抄100遍,你就记住了。还是一个重复劳动。这样重复劳动的过程,关键点在哪里?关键点在于老师没有精力一个一个的识别你的弱点在哪里、长处在哪里,英语学得好还是数学学得好,数学里面的一元二次方程学的比较透彻还是平面几何学的比较透彻。一元二次方程里面相关到因式分解的问题还是方程配平的问题,这些问题就是所谓的知识图谱。邹老师今天上午讲了,这是知识图谱体系,是知识的网状结构,我们怎么判断每个学生知识结点的水平,我们知道他在每次考试、每次作业过程里面哪道题目做错了、哪道题目做对了。做错的题目意味着什么东西?很多种原因,可能不掌握这个知识点或者有可能不掌握相关知识点。把这个过程数据里面的东西总结提炼出来,比如说最基本的一个概念,我讲很早之前我们部分否定的一个东西,看一个人个人在某些知识点上面的得分和班级平均、年级平均,乃至于地区平均的得分差异,我们非常明显的看到,小明、小王在1、3、7几个知识点得分远远低于平均,原因就是他对这个知识点没有掌握,他是把一整张试卷做十遍有用,听老师把一整张试卷讲一遍学的比较透彻,还是老师开小灶,把几个知识点讲几遍,出几道从易到难的题目,你把知识点的题目做一个简单的、做一个中度难度、做一个最难的,做出来看结果怎么样,然后再去给它循环,这其实就是我们在解决过程里面的思路。


哪边的知识点没有掌握好,相关基础知识点是什么,这些基础知识点可以从什么样的题目、什么样微课视频里面来进行学习。学习过之后,再去更新你的学习过程数据,最后你的成绩应该是很大概率得到提升的,因为这像家教一样,他会很细心的问,机器会仔细的考虑你在学习过程中哪些地方掌握的好、哪些地方掌握的不好,掌握不好的地方我查漏补缺,木桶效应,把短板补上去。2015年我们证明这个东西真的有用,当时只能处理数学的题目。


两个班级平均成绩一开始十几名,比较正常的平均,一个学期下来,而且是高三的时候,直接提升到平均成绩年级第一、第二。当然我们现在做了一些更细节的工作,我们发现对每个人实际上不一样,有的人就是老是粗心,不是知识点掌握的问题。我们以前说学生是同质化的情况,大家投入同样的经费、学同样的东西应该得到同样的结果,但是人不会这样,他会粗心、大意、考试的时候会紧张等等,我们不仅要解决知识点的问题,还要解决学习习惯问题、学习能力问题,包括心理状态的调整,这些过程都可以在个性化学习过程里面,通过不同交互模式或者交互机制,不断把他培养起来。我们说这个东西在某种意义上甚至可以取代一些家教的东西,为什么呢?家教是一对一的学习,开小灶,针对性的诊断你哪个地方好、哪个地方不好。


我们把整个教学过程里面的一些问题,通过大数据把教学过程的大数据收集起来,通过人工智能的手段解决它,通过大数据的个性化学习和个性化推荐解决它,得到很好的结果。


【未完待续】


扫码关注公众号回复:谭昶   获取PPT下载链接



历史文章推荐:

[AIDL1][附PPT]山世光:从人脸识别看深度学习对计算机视觉的推动及挑战




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存