回顾|2020年中国智能语音行业分析报告
全文字数:5612字 精读时间:14分钟
目前全国约有超过250家企业参与智能语音语义市场。互联网巨头、技术提供方、设备商和行业集成商应分别重视连续性投入支持问题、基础开发模块标准化程度提升与商务团队配置问题、设备后服务增长问题和软件研发能力建设问题,迎接人机交互升级带来的行业价值链扩张。
智能语音的概念
智能语音即实现人与机器以语言为纽带的通信
智能语音即实现人与机器以语言为纽带的通信。人类大脑皮层每天处理的信息中,声音信息占20%,它是沟通最重要的纽带,人机对话将方便人们的工作与生活。完整的人机对话包括声音信号的前端处理、将声音转为文字供机器处理、在机器生成语言之后,用语音合成技术将文本语言转化为声波,从而形成完整的人机语音交互。
智能语音的前情提要
机器“听觉”本质上是对声音特征和文本的分类任务
人的听觉形成过程是将声能转变为机械能、再转为生物电信号,在听觉中枢加工、分析的结果,而机器的“听觉”则经过声音信号-音频信号-电信号-特征向量-解码为文字-理解的过程,本质是对声音特征和文本的分类任务(将字音分类对应为文字、将文字对应为潜在语义),如果需要机器感知声音的起止和音色等特征,还需要另外进行信号处理与特征分类任务。
深度神经网络是智能语音技术近年达到落地可用的推动器
2011年,微软研究院提出的基于上下文相关深度神经网络和隐马尔可夫模型的声学模型在大词汇量连续语音识别任务上获得了显著的性能提升,从此大量研究人员开始转向深度学习在智能语音领域的研究,2016年,机器语音识别准确率第一次达到人类水平,意味着智能语音技术的落地期到来。近年,研究方向主要是端到端神经网络及针对实际应用中的算法优化。
所涉学科及其研究任务
本章小结
技术闭环完成度有待提升,面临长期的求索方能突破
智能语音背后涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未成熟到拼成一个没有明显短板的“木桶”,在交互体验、使用效果、场景性优化等方面都还有很长的路。与人工智能发展最快的分支计算机视觉相比,尽管二者都凭借深度学习取得重大突破,并在识别准确率上达到人类水平,但计算机视觉通过人脸识别这一大技术分支便高完成度地解决1:1或1:N比对问题,快速渗透到了各行各业;智能语音技术要解决的却远远不是1:1或1:N的比对,而是人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,这是一个宏伟的开放性课题,因此尽管智能语音已取得了一些商业上的成就,但仍面临长期的求索方能突破。
国内智能音箱卡位家庭流量迁移(1/3)
从PC与移动互联网看流量迁移模型
目前移动数据及互联网业务收入达到固定数据及互联网业务收入的三倍,说明互联网流量大量迁移到移动端。智能音箱厂商则希望在智能音箱从用户家庭场景流量中分一杯羹,成为家庭场景流量入口。借鉴移动互联网的经验,有三个关键因素将促成设备端口的流量增长:终端可得性、接入便利性、应用丰富性。
2019年,尽管我国智能音箱硬件补贴已进入收缩阶段,补贴额依然达到15.8亿元(产品库存对该数值有一定影响),中小玩家难以支撑大量补贴,因此巨头占据了绝大部分市场。目前智能音箱市场主要由天猫精灵、小度音箱和小度在家、小爱音箱占据,互联网基因使它们在智能音箱产品上复制了互联网玩法——补贴攻城、低价策略、互联网服务运营回血,同时应用开发者的广泛聚拢、产品智能化提升的开发都需要强大的资金和资源支持,使智能音箱市场很难存在群雄并起的格局,智能音箱的流量也相应聚拢在大平台。而在智能音箱的生产成本中,麦克风阵列仍然是最大的部分。
在智能音箱部分我们探讨了品牌设备商如何形成多元化的变现模式,对于消费级市场另一大主力参与者——语音交互技术提供方而言,发展空间也远远不止下游B端品牌设备商在设备开发过程中支付的技术付费。一方面,技术提供方可以通过提供芯片、麦克风阵列解决方案、AI算法的全链方案,增加技术输出的“厚度”,同时实现技术与解决方案的研发中基础环节与模块标准化,降低客户的开发配置门槛;另一方面,强化对应用场景的理解,打磨交互功能和用户体验,给实际问题提供“向前一步”的解决能力,从而获得C端收费的可能。这两类发展空间的实现有赖于两点基础要素:(1)具备全链条语音交互技术能力;(2)有建立用户联系、获取用户体验反馈的场景。
企业级与公共级市场画像
Nuance是全球最大的智能语音公司,2018年其在医疗业务上取得9.9亿美元收入,占公司总收入的48%。相较而言,我国智能语音市场中2018年医疗健康仅占0.7%。这主要是由于美国医疗机构以私立为主,对诊疗服务人性化、医疗信息化关注度更高;我国医疗信息化发展水平相对落后,三级以下医院信息化建设经费有限、专项政策引导力度有待提升、数据孤岛普遍存在,因此目前市场处于单点式推进状态,短期内推进速度比较平稳。不过,智能临床决策支持系统和电子病历语音录入等应用与医疗信息系统打通集成、分级诊疗、医保控费、民生建设等都有直接关系,若相关政策引导加强、医疗数据标准建立和医疗数据跨机构整合推动加速,则有望复制海外市场的医疗业务体量。按照现状估计,预计到2022年,我国电子病历语音输入累计覆盖近1600家三级与二级医院(付费数,渗透率分别为36%和4.5%),180万医生受益。
智能教育领域,AI课堂的建设进入快车道,强调两点:一是解决家校之间、线上线下之间学习资源互通的问题,二是通过多模态识别收集课堂学情信息并做数据精准分析,因此通过语音转录、语音识别等技术实现授课语音转录为文字、利用多模态识别进行课堂质量监测不可或缺。另一方面,在线教育竞争呈白热化态势,用技术解决教育资源的复用、增加学习交互体验感等诉求也促进了智能语音技术在线上口语测评、虚拟教师等领域的应用。考试赛道方面,北京、上海、江苏、广东等省市近年推行在新中考、新高考英语考试中以机考形式进行口语测试,因此人机对话技术和智能语音评测技术开始应用于考试场景,以提升口语考试的效率。
互联网的变迁使音视频内容的传播得以快速发展,经统计,我国部分头部娱乐社交类App月度总有效使用时长达到每月70亿-90亿小时,用户每天将从娱乐社交平台接触大量信息。这也带来了垃圾信息审核难题,2019年上半年,多款语音社交App因通过语音传播违规信息下架。粗略估计娱乐社交类App背后产生的音视频内容时长接近每月4700万小时,这一数字如果用年来表示,相当于5400年,显然通过人工审核音视频的方式净化网络环境是不可能实现的,而如果依靠举报再人工审核的方式也只如沧海一粟、大量问题语音将被漏查。目前除使用图像识别技术审核图片和视频帧外,以依图科技为代表的AI公司开始通过特定声音检测和语音识别技术赋能实时语音流及音频文件的内容审核,弥补之前针对互联网语音内容的审核空白,提高审核效率与准确度。
AI助理的真正形态:向多模态高密度交互升级
在5G快速发展的背景下,高带宽和低时延特性使多模态识别开始普及,未来支持多模态识别的AI芯片、支持多模态识别的物联网操作系统以及AI算法将受益。多模态识别的主要应用场景包括车载(第三空间)、智能机器人、身份鉴定,具体将会通过语音识别、人脸识别、表情分析、唇动状态、眼球跟踪、手势识别、触觉监控等智能人机交互手段综合识别人的情绪、疲劳状态、复核验证人的身份,对于更加精准、主动和个性化地提供人机交互方式十分重要。
另一方面,语音转写已经成为智能语音技术落地的重要场景,目前在短时间、对话人数少的场景下应用效果较好,但在企业级和公共级场景下往往面临对话时间很长的情况,仅做语音转文字和简单的结构化,不能甄别有效信息、语义结构分类不理想等将是限制语音转写规模化落地的最大问题,行业的高速发展有赖于准确地按照需求提取长时语音消息的有效内容。
各类企业行动方向