【瀚海数据说】科大讯飞大数据实践
第20期
科大讯飞在大数据领域有哪些实践?中国计算机学会大数据专家委员会委员、科大讯飞大数据研究院副院长谭昶博士以他多年的大数据核心技术研发以及实践经验阐述讯飞大数据、人工智能在智慧城市、计算广告和个性化推荐等方向的应用。
大家好,我是谭昶,今天很高兴能够在群里为大家介绍一下科大讯飞在大数据方面的一些实践工作
我现在在科大讯飞大数据研究院,是和人工智能研究院一样,作为科大讯飞的一个核心研发部门,在2015年刚刚成立。那么科大讯飞作为一家人工智能公司,大家首先想到的是人工智能和大数据是怎么样能够结合起来的,现在我们可以看一下PPT。
人工智能和大数据
我们看到的就是人工智能的成功是离不开深度神经网络这样一个优秀的机器学习模型的支持的,那么在语音识别的这个问题里面,我们常常对一个深度神经网络要输入数万小时的有标注语音数据,那么这些独立同分布的数据在训练的一个深度神经网络之后,我们可以把这样一个良好的模型放在我们的云服务平台上,也就是讯飞开放平台中,那么这样的话呢,讯飞开放平台上数亿用户的语音输入就可以得到一个良好的处理,那么大家就能够享受到我们所听即所见的这样的语音识别服务了。那么在整个过程中大家可以看到,一方面,是我们让用足够多的大数据来训练一个优秀的深度神经网络模型,也就是让这个模型更加的智能;另外一方面,训练好的模型能够处理以前我们传统方法所不能处理的语音数据或者图像数据,那么这些数据就会经过加工和处理之后变得更加的有价值,也就是说大数据让人工智能更加智能,人工智能让大数据更有价值,讯飞也很早就认识到了这一点。
我们一直在说人工智能成功的三大法宝之一就是大数据,那么深度神经网络和大数据的结合是当前人工智能能够成功的一个主流路径。而通过互联网和移动互联网的研究工程、产品、用户的闭环优化这样的一个涟漪效应,可以加速大数据的收集、加速深度神经网络的迭代和优化,这样的话人工智能的准确度或者对服务的满意度就会不断的提升,也就是通过一个涟漪效应让人工智能不断的成功。
那我们看到了人工智能是非常依赖于大数据的,那么另外一方面,大数据它要产生价值的话肯定是离不开人工智能的支持。我们常常说大数据在使用过程中它必须真正产生价值,如果我们只是把数据简单地保存起来,数据就会变成一种负担的一个沉没成本,只有我们把数据进行不断的加工和整理,它们的知识和结论,才能产生真正意义上的商业价值。
那么我们看到了数据价值挖掘可以分成四个层次,而每个层次里面人工智能实际上都有非常大的帮助作用。比如说我们面向个体的检索和查询,其实是可以把声纹的检索和大数据结合起来的;第二个层次的整体统计和分析,如果我们不对原始的语音大数据或者图像大数据进行加工和整理的话,可能我们也没有办法很好地对它们的数据里面包含的内容进行统计分析;再上一个层次,通过对语音、图像数据(包括现在非常多的行为数据)的加工和整理,我们实际上可以对个体进行个性化的推荐或者计算广告的营销;那么更上一个层次,通过对整体的一些数据的分析和挖掘,我们可以发现很多面向整体的规律变化,比如说大家的购物倾向的变化、消费型的变化或者是城市里面交通状况的变化。
信息化服务的整体框架
这样的话,我们把大数据、人工智能和云计算三者结合起来看,就能看到一个信息化服务的整体框架。以大数据和云计算作为数据层面和机器基础架构层面的这样的基础支撑,而以人工智能的这种智能化服务作为一个顶层的应用展示,我们看到未来的信息化服务一定是能够像从海量的数据中自我优化、在日常生活中触手可及的这样一种智能化信息服务,那么我们的大数据加人工智能可以使这个服务的品质不断的进行优化迭代和提升,而云计算能够让整个这个服务在日常生活中通过手机、智能家居、车载等各种方式触手可及。
讯飞大数据能力
因此讯飞也认识到,人工智能和大数据一定是讯飞进一步提供更加优质的这种IT信息服务的一个必然选择。如果我们想做出更好的、更优秀的人工智能的服务或者说IT的服务的话,一定离不开人工智能和大数据的综合应用,所以讯飞非常重视大数据的发展和应用。当然,如果想做大数据的话,我们首先要看一看自己的家底有没有做大数据的这个能力。我们把大数据能力分成四个层次,第一个层次,你有没有足够好的大数据资源;另外一个层次是你能不能在现有的大数据资源基础上进行充分的挖掘和利用,这就需要良好的平台和团队;在第三个层次上面我们对于现有的业务能不能通过大数据的手段进行改进和提升;最后一个层次我们把大数据外部性加以充分的利用,去开展一些广告或者金融征信相关的大数据业务。
讯飞在人工智能方面深耕了十几年,也是非常好的,已经拥有了一批比较宝贵的大数据资源。以我们的开放平台为例,这样的一个云服务平台上面现在已经有了9亿多的终端,然后日均的人工智能服务的调用次数也达到了35亿次,并且在整个平台上形成了一个初步的生态,有29万的第三方创业团队在使用我们的平台开发各种各样的手机APP或者服务机器人等。我们有一个非常有意思的团队,就是帮助快递员打电话,快递员念出来电话号码,那么他的念出来号码就会自动的识别和拨打,这样的话快递员就不用再腾出手来去按电话号码按键。
另一方面,讯飞自己也在不断的生根各个行业应用的场景。比如说在汽车语音方面,现在自主品牌95%的语音服务能力是由科大讯飞来提供的,包括了像车内的娱乐系统或者车内的一些基本的电子控制系统,覆盖了30多家汽车厂商100多款车型。在手机端,我们的讯飞语音输入法现在是国内第二大的手机手机输入法,那么月活也超过了1亿,总用户超过了4亿。在智能家居方面,我们的叮咚音箱在2015年上市之后累计销量可能超过百万台。现在的整个解决方案服务了3000多家合作伙伴,提供了100多种智能化的产品,包括了电视、空调、音箱等多种产品。
我们的教育产品现在已经服务了10000所学校,8000万的师生,包括了57所全国百强校。这些垂直领域都为我们提供了大量宝贵的数据资源,这么丰富的数据资源当然需要一个强大的数据平台来进行加工和处理,讯飞基于开源的生态,构建了自己的大数据能力平台Odeon(奏乐团)。我们在上面每天大概有15000个大数据处理的任务,处理我们35亿次交互产生的100TB数据,演奏出一曲美妙的数据音乐。我们也可以看到整个平台的架构之下已经实现了数据闭环的完整能力,包括了数据收集、存储、计算和对外提供数据服务接口。
有了很好的数据资源和足够强大的数据工具平台,我们还要有足够多的优秀的人才来使用这些平台工具来挖掘这些大数据资源,可以看到我们现在已经邀请了鄂维南院士、熊辉教授、陈恩红教授这三位国内大数据方面比较知名的老师作为我们的大数据科学家,我们也和科大、清华包括美国的约克大学、罗格斯大学等学校建立了非常良好的大数据的产学研合作关系。有了优秀的团队,足够丰富的大数据资源以及足够好的大数据处理工具,那么我们讯飞大数据当然就能够在各个领域里面开展相应的工作。
讯飞大数据应用
我下面会讲三个案例,这三个案例一方面是说我们已经通过用户画像、计算广告和个性化推荐实现了自由大数据的价值挖掘闭环,充分地从自由大数据中挖掘出来商业价值。另外一方面,我们在教育、城市等方面也将大数据能力赋能到各个行业里面,助力各行各业的事情真正的智慧化,把传统行业能改造得更加具有大数据效益。
精准营销在大数据的价值挖掘领域已经是一个非常成熟的一种架构了,我们首先也是通过讯飞的大数据平台在其上构建了相应的用户数据的,这种业务平台汇集了讯飞所能够拥有的全量用户数据,涉及了我们的输入法、语音云以及车载、教育等场景。这些数据汇集来之后,我们经过相应的加工,既可以提供给我们自己的广告以及用推荐业务去使用,也可以向外提供一些第三方的数据服务,当然最核心的价值还是面向计算广告的这种受众分析获取和挖掘,收集到了用户的全量的行为数据或者是信息数据之后,第一步要做的事情当然是建立用户画像。
那么我们的DMP平台上面现在已经构建了我们9亿用户、12亿终端设备面向人生阶段、行业偏好、购物兴趣、媒介兴趣等四大类1700个标签的用户填充工作,并且这些标签填充率都比较高,我们基于这些标签就能够进行相应的广告和推荐服务。
特别要强调的一点是人工智能应用在大数据的挖掘里面是非常有价值的,比如说我们可以看到在汽车领域,对于短文本的自然语言处理,我们实际上可以通过人工智能、深度神经网络的各种模型构建起来相应的关键词的聚类以及知识网络,有效的区分是有车还是想买车这样的用户语义,实现购车意向人群和有车人群的精细划分。那么如果我们的广告客户是一家汽车销售公司和一家汽车保险公司的话,我们就可以有针对性地帮助他们进行定向的广告投放来实现广告价值的最大化。
同样在金融领域,我们对于贷款理财包括P2P小贷等各种各样不同的金融理财偏好也进行了非常精细的划分,而这种精细划分之后,我们可以看到在广告投放的效果上面比普通的漫无目的的投放得到了更高的转化率的提升,并且今年我们也助力京东618,实现了非常高的ROI转化率。
除了广告投放之外,用户画像的标签还可以用于我们的个性化推荐的场景,大家都知道讯飞实际上在智能家居里面的音箱、音乐推荐或者说铃声推荐以及在手机端使用的一些APP里面进行流量包推荐等都进行了相应的探索和研发。比如说我们在铃声上面推荐场景已经覆盖了像首页、最热这样的常见场景,业务的开通量能够提升300%;流量包的推荐能够直接找到最需要流量的这些用户,他们的下单率可以提升一倍,也就是说通过个性化推荐的手段实际上直接带来了商业价值。
那么在教育大数据领域,大家现在通过各种在线教育的普及、幕后的宣传其实也已经认识到了如果有足够多的学生的过程行为数据的话,我们可以对学生进行各种个性化学习的支援,帮助老师减轻工作量。但是实际上在整个过程里面最困难的就是我们怎么样收集足够丰富的教学过程数据,尤其是现在各个学校还在使用纸笔进行作业和考试的情况下。讯飞现在通过人工智能的手段把传统的OCR识别和人工智能的语义理解、卷面分析结合起来,可以实现像英语作文、语文作文的自动评阅、自动给分,我们在江苏省的高考以及湖南省的职能研究生考试中进行了相应的验证,可以看到机器和人工的阅卷相比较起来,机器和人的阅卷的差异率已经远远小于与人和人之间的阅卷差异率,也就是说机器完全可以替代一部分阅卷老师的工作。
为此,教育部考试中心也和科大讯飞建立了一个人工智能联合实验室,专门研究怎么样在考试领域更好的应用人工智能阅卷技术,我们看到这样的一种机器自动阅卷的能力,就能够帮助我们更好地收集传统的纸笔作业产生的学生的学习过程数据。对于学生的学习过程数据进行全量采集之后,就可以做一些个性化学习方面的工作。
现在,我们看到的是讯飞智学网这样的一个个性化学习产品,它通过全学科阅卷这样的技术手段采集到学生的全量的学习过程的考试以及日常作业数据之后,那么机器自动评阅之后可以根据习题的知识点给出每个学生对于知识点掌握能力的偏差。基于这些知识点偏差我们基于高中初中的知识网络图谱,可以有针对性地进行个性化推荐,推荐学生需要去补充学习的题目,包括可能微视频或一些练习题,在做了这些练习题之后,我们又可以进行一次机器的评阅,机器掌握了这个数据之后又会形成一个更好的闭环。我们看到在北师大二附中实际上得到了非常好的验证效果,通过人工智能收集到以前无法去收集处理的大数据,通过对于学习大数据的深度的挖掘和分析,真正的实现个性化因材施教。
讯飞把自己的教学产品现在已经覆盖到了8000万师生,在10000所学校得到了应用,最新的一个数字显示全国有68所全国百强校已经使用了讯飞的智学网产品。还有一个消息就是今年各个学校已经有一批高考状元,全国大概有十位高考状元,已经真正的使用过讯飞的智学网产品,并且都给予了良好的反馈,认为讯飞智学网产品对于它们的成绩提升起到了很大的帮助。
最后介绍一下讯飞将大数据能力应用在政府的公共服务之上。大家都知道现在国家也提出来互联网+政务服务要让数据流转而让人少跑腿,最核心的一点就是数据共享,讯飞把自己的数据共享的打通能力也复制到了各级政府的各个方面,我们的政务服务已经在安徽、浙江、贵州等8省30多个地市得到了实际应用。大家可以看到,对于政府内部40多个部门715类数据都进行了打通,对于常用的便民便企事项1000多项以及社区的一站式线下服务之下都进行了非常详尽的梳理,这些成果像芜湖、亳州这样的代表性城市得到了央视、人民日报的报道。
我们可以看下面的一个例子,大家都知道国内的话,领退休金首先要证明领退休金的老人它还在生存,传统的模式是老人到一个社区的柜台上面,然后对着摄像机或者对这个社区的工作人员说一些话,但现在我们实际上通过生物数据的打通,通过在手机端实现声纹加人脸的人工智能的应用,老人只要对着手机说几句话然后摇摇头,那么就可以证明他现在还是处在一个享受退休金待遇的时间段之内,这个手段在人民日报的对于亳州的报道里面也直接浓墨重彩地做了描述,因为它的确非常的方便老年人平时的生活。
那么另外一个可以看到的就是在企业服务方面,我们在杭州市做了一个农家乐经营许可证申请的优化,传统的模式是需要在线下跑好多部门,然后多次申请多次跑腿,现在我们把它改造到线上,通过杭州的政务数据共享平台,只要有相应的申请提交,各个部门进行并联审批,最后审批完了之后,直接通过邮政的EMS快递把相应的审核结果包括证照发给这个农户,那么就实现了一窗受理、一平台共享、一站式服务。后续我们还在2017年的上半年帮助杭州市政府完成了数字杭州的顶层设计方案,就是明确的提出了要用人工智能来打造城市里面的数据闭环,为城市的居民、企业提供更好的服务。
最后一点,除了政务各个部门之间的数据共享之外,我们还帮助政府进行各种政府部门以及各个行业、企业的数据共享。比如说我们把运营商的数据、公交的数据和交通管理部门的数据进行融合之后,我们可以发现一个城市里面的高频稳定客流来帮助定制和优化公交路线。同样的,如果我们把国土规划以及房地产的这个租售数据结合起来的话,可以事先评估一些工厂、医院、商场建成之后对于周边的房价交通教育学位的影响,实现一些科学的规划,这样的工作我们在合肥、芜湖也进行了相应的试点。
我们可以看到人工智能和大数据加以深度融合之后真的能够在非常多的技术上面取得很多的突破,那么讯飞最大的优势就是我们不仅仅是有技术的优势,而且已经把这些技术应用到了各行各业,包括城市、法院、医疗、教育、人机交互、机器人客服等等各个行业,我们在行业里面深耕的这些经验,再把我们的人工智能能力和大数据能力结合起来之后,能够在每个行业里面做出非常让人惊艳的成果,也就是在每个行业里面得到各个行业的主管部门、行业的企业的认可,我们当然也有信心在这样的一个人工智能和大数据的时代,做出更多更好的成果,和各行各业一起大有可为,继续前进。
我今天的报告就到这里,谢谢大家。
(编辑 张冬0300 / 素材 栾松0811、郭艳0106研 / 主持 陶涛9500 / 群主 牟志坚7906)
§主讲人简介§
谭昶博士毕业于中国科学技术大学计算机学院,现任科大讯飞股份有限公司大数据研究院副院长,负责科大讯飞公司智慧城市、计算广告和个性化推荐等方向的大数据核心技术研发及应用推广工作。
谭昶博士主要从事数据挖掘和推荐系统技术的研究和推广应用,尤其专长于大数据平台建设、行业数据分析、用户行为分析、时空数据分析等技术领域,主持开发过个性化推荐系统、时空数据分析平台等多项具有核心竞争力的大数据应用产品。2016年,谭昶博士因其在大数据研究与应用领域的突出贡献,当选中国计算机学会大数据专家委员会委员。
iOS用户赞赏通道