丹棱君有话说:技术变革正在改变媒体与大众的交互方式。微软基于深度神经网络的定制化语音技术,通过较少的发音人训练样本帮助英国广播公司BBC打造了虚拟助手Beeb,可以用英式口音为用户提供个性化服务。“OK Beeb,播放Radio 1"
Beeb不是硬件设备,而是内置于BBC网站和iPlayer TV流媒体服务的定制化数字化语音助手。“定制化”能力使其在业务场景中部署时更加灵活,适配媒体在AI时代变革的需求。如果你想听相关广播电台、播客或新闻,可以通过语音互动的方式进行点播,当然,你想要听笑话,它也会立马为你随机播放节目中的英式段子。对媒体行业而言,从纸媒到电视、互联网媒体的发展,每一次技术变革都意味着用户获取信息的交互方式会发生巨大改变,而没有紧跟技术发展的传媒公司在影响力上会加剧衰落,甚至淘汰出局。随着新一轮智能技术的冲击,原有的媒体与用户交互的方式也必然发生改变。显然,通过利用智能语音等AI技术来构建媒体的虚拟形象、为用户直接提供VIP式样的个性化服务是一大趋势。当然,除了媒体行业,这种交互模式也会为更多企业服务领域带来颠覆性的创新,比如通过构建符合品牌特点的语音形象,让用户在认知上更加立体化。要达到这一目标,高质量的个性化语音必不可少。不过,尽管市面上有诸多语音技术方案提供商,但定制化语音技术的部署远不是简单的接入API和SDK,而是需要诸多细致、繁杂的优化工作,才可能积累出一个可复制的模式。作为深耕语音技术的企业之一,微软正在利用Azure云计算技术与定制化语音技术将AI对话机器人的开发经验,赋能给BBC等各行业企业。那么,从BBC语音助手这个标杆案例出发,微软如何搞定这个“挑剔的”客户?他们的定制化语音技术有什么不同要求?又如何将它更好地落地到各行各业?相信微软的技术落地实践会为行业解决方案带来一定启发。
如上所述,你可以认为BBC的Beeb类似于微软Cortana对话机器人,但区别在于Beeb是技术和场景需求都是“定制化”的。
先从需求说起。随着AI等新技术的冲击,BBC作为全球老牌的媒体和内容生产商之一,出于品牌策略和个性化元素的考虑,也开始寻求通过技术创新提升业务体验,比如通过多形式与用户做媒体交互,其中语言互动是一大新形式。
有了特定需求,就要有相应的语音技术做支撑。微软云计算与人工智能事业部语音组首席研发经理张晓洲介绍,通用的语音技术无法满足客户特定需求。Beeb与Cortana的目标和功能并不相同,背后的技术也会有所不同。
对有着高标准要求的BBC来说,他们需要Beeb发出标准英式发音,甚至细化到英国北部某个特定地区的口音风格,这需要在技术方面有非常强的细节实现能力。
还有多风格的要求,比如在跟真人打招呼时,声音需要符合个人助理身份的互动风格,而在播报政治、军事类比较严肃的新闻时,就需要严肃的声音风格。
微软团队需要解决这两大难题。在BBC提供的不到2000句的录音人数据量中,他们基于主播的数据,与语言专家、客户挑选和分析特定口音的发音特点,然后汇总成模型能识别的规律,最后构建到定制化模型里,生成高质量、多风格的声音。
张晓洲表示,建立声音模型看似简单,但这只是定制化语音技术的一小部分。更重要的是,微软平台提供了从选型、数据处理到训练的端到端解决方案。
定制化语音技术优势:更少的训练数据、更个性化的音色
2018年5月,微软推出声音定制的自助服务平台(customvoice.ai),但那时还是基于传统的训练方法来让用户自助生成声音模型,现在,通过基于深度神经网络的定制化语音技术可以在更少训练数据的情况下,使得输出的声音效果有大幅提升。业内做语音合成此前有两种方法,一种是参数语音合成,另一种则是拼接合成。参数语音合成需要对音库进行参数化建模,根据训练得到的模型预测出韵律参数和声学参数。而波形拼接语音合成就是在语料库中抽取合适的拼接单元,拼接成为句子。在应用效果上,拼接合成的语音更加贴近真实发音,而通过参数合成的语音更稳定。但现在,微软的基于深度神经网络的语音合成方案兼具上述两种方法的优点,且在具体应用体验上有更好的效果。首先是念得更准,这是从文字转化为声音的预处理阶段所要达成的目标。早前,基于规则的方法来提升准确性,但面对中文里的多音字和数字年份的具体念法,导致经常会漏掉一些特殊字词的念法,而采用深度神经网络的方法则把语音合成的精度提升到超过99%,完全匹配甚至超越了人类对文字的处理能力。除了发音准确之外,还需要做到清晰自然的发音。传统的TTS用到的拼接合成方法通过把语音数据分成一个个单元后进行拼接,但其局限性在于语音合成的声音韵律不够自然、平滑,并且需要算法学习大量的训练数据。2018年年底,微软语音团队使用其提出的实时深度神经网络模型去预测语言的韵律信息,生成的语音会结合上下文产生像真人一样有自然的韵律。
最后是音质高。此前,业内普遍采用的参数合成方法,但生成声音会明显夹杂不自然的机械声。随后,他们采用深度神经网络的声码器,把声学表示到最终的波形进行了高质量的恢复。相较之下,即便在有比较高质量数据的前提下,传统的模型训练方法效果也不尽人意。而深度神经网络模型具备预测能力,可以把多风格的模型组合起来,更加灵活地把握企业所需的语音风格特征,大幅提升语音应用效果。在此过程中,所需的训练数据也变得更少。
张晓洲举例,“传统的语音合成效果要达到MOS分4分以上是很困难的,并且所需的训练数据可能要五千句话以上,有时要将近一万句以上的数据量,像基于深度神经网络的TTS量级已经降到了两千句以内,通常五百句话以上就能达到相当不错的效果,当然进一步增加到两千句的话能够让质量接近真人的水平。”与市面上提供类似定制化语音技术的公司相比,张晓洲评价,现在有一些语音公司的样音效果很不错,但在规模化落地时,稳定性和高可用性方面尚还有很大的提升空间。其次,在可用的基础上,他认为语音技术应用还要往个性化、低成本、低门槛方向发展,使每个人都可以受益。微软定制化语音技术的优势在于,可以用更少的数据达到更加高拟人度和自然韵律的效果,且能多风格定制,此外还支持多语言定制,除了能说标准的英式口音,同样可以为声音赋能,说出中文、日文等其他个性化定制语言。随着越来越多企业应用语音合成技术实现自然人机交互,在商业层面规模化地推出更加个性化的符合品牌特征的形象化声音将是语音定制技术发展的新目标,也会越来越成为传统企业在做AI和数字化转型中的重要考量。
除了将定制化语音技术落地到媒体行业,微软正在逐步将技术落地到各行业领域。微软云计算与人工智能事业部语音组首席产品经理廖勤樱介绍了智能家居场景下的应用案例,比如与瑞士电信Swisscom合作了一款定制化语音助手,用在智能电视机顶盒或是智能TV家用的路由器等设备中,帮助用户播放内容。此外,他们还与小米合作了基于手机的语音助理,比如用明星代言人王源的声音数据去复现他本人的声音,用在闹钟、起床等一些基于手机的智能助理功能。在公益项目中,微软的语音技术同样发挥了作用。比如为了让视障人士拥有更好的阅读体验,他们与NGO组织红丹丹合作,以中国第一位视障播音员董丽娜的声音数据作为原型,合成有声书,投入到全国105所盲校。对微软来说,case by case的项目制的落地效率显然很低。为了让更多企业可以快速定制高品质的个性化语音,张晓洲的团队正在开发一套完全自动化的、可自助服务的深度神经网络语音定制化平台。目前,通过微软云Azure平台集成后,已经形成一套端到端的定制化语音技术解决方案,具有高可定制化、高可扩展能力,同时具备可媲美人类发音能力的基础模型。这个基础模型利用了上百万句不同发音人、不同语言的海量数据训练,使其能够模拟各种发音模式。通过学习少量发音人样本,提取出发音人特征,利用这个基础模型,就可以准确的模拟出真人的发音效果。在没有任何微软员工参与的情况下,用户完全可以在Customvoice.ai平台上自主创建一个符合业务需求的高质量定制化模型。张晓洲称,“平台上提供了数据检查,包括录音脚本、录音音频文件的筛选,模型的训练评估和测试,以及验收部署,全部都可以自助在一个平台上完成。”最后,对于上传语音数据,用户必然非常关注数据安全和隐私保护问题。实际上,微软在这一点上非常注重相关伦理规范,他们还推出“负责任的AI”规范,确保AI技术不被滥用。微软团队介绍,从用户的使用、申请,包括最终的部署和把声音运用在实际的应用场景里,微软对客户的语音数据都有一套成熟规范。另外,微软开发的智能检测技术,还可以对声音进行甄别以判断是否是合成声音。
本文经授权转自公众号CSDN(ID:CSDNnews)
作者 | Just
复制下方网址至浏览器,体验微软语音定制化平台功能:https://speech.microsoft.com/customvoice了解更多: