思必驰DUI平台上线“单人千音”,各地方言AI随心切换
“您好!”——普通话
“雷吼哇!”——粤语
“拟好!”——四川话
人类在发展历程中形成了多种多样的语言,即使同为一种语言也有不同的发音,可谓十里八乡不同音。
一个人会说普通话,但未必会说方言,具有语音交互功能的AI产品也是如此。那么,如何让同一款产品在不同地区销售时能够“入乡随俗”,既会说普通话又会说方言甚至外语呢?
近日,思必驰DUI平台上线“单人千音”功能。“单人千音”通过深度神经网络对发音人音色进行建模,实现单个音色就能生成同时覆盖多种语言、多种风格的语音合成声音,极大丰富了合成语音的表现力。
同一AI产品,不同语言
“少小离家老大回,乡音无改鬓毛衰。”方言,是一种文化也是一种情怀。方言的差异性主要表现在语音、词汇、语法各个方面,其中语音的差异性尤为突出。
方言的差异性也对智能语音提出了新的要求。在人机语音交互中,智能语音不仅要会普通话,甚至要学会方言、外语方能满足用户多样化的需求。
思必驰DUI平台最新上线的“单人千音”功能,推出臻品女声楚楚、臻品男声小军两款音色,每种音色可合成普通话、四川话、粤语等方言以及英语等外语,实现一个音色多语言的功能。
用户微信搜索“小驰慧听”小程序,或登录思必驰官网,输入文本,点击想要合成的方言即可体验。
目前,单人千音可满足智能车载、AI客服、视频配音、智能家居等场景下的使用。
在车载语音场景中,一个会说方言的语音包更能赢得用户的“芳心”。据统计,全世界使用粤语人数约7000万,思必驰单人千音支持合成粤语,在车载语音中内置粤语导航,可以满足粤语方言区用户的日常使用,增添人文情感色彩。
“稀客稀客”、 “一路行前,转左就系了”,在银行、车站、机场等大厅中,一个在普通话、四川话、粤语、英语等各种语言之间自如切换的智能客服无疑会为来自天南地北的客人带来便利与亲切感。
短视频、动漫IP兴起,配音需求量随之增加,人们需要不同情感的合成语音来表达人物的喜怒哀乐。思必驰单人千音中的臻品女声楚楚,可支持中性、高兴、抱歉、撒娇四种情绪。
同时,用户可根据自身需求,对语速、音量进行调整,合成符合自己产品的智能语音。
迁移学习,快速合成方言、外语
那么,为什么思必驰单人千音可以快速合成各种方言和不同语言的语音呢?这就要用到迁移学习技术。
迁移学习(Transfer Learning)是一种机器学习方法,就是从以前的任务当中去学习知识或经验,并应用于新的任务当中。目前,迁移学习方法大致可以分为三类:基于样本的迁移学习方法;基于特征的迁移学习方法;基于模型的迁移学习方法。
迁移学习对人类来说很常见,人类可以将以前学到的知识应用于解决新的问题,从而提高解决问题的效率或取得更好的效果。例如,我们学会开手动档汽车,有助于学习开自动档汽车。在学习电子琴的时候有助于将来学习钢琴。
在语音合成中,开发者往往面临大数据与少标注,大数据与弱计算的矛盾:虽然开发人员有大量数据,但往往都是没有标注过的,人工进行数据标注太耗时,无法训练机器学习模型;或者,开发人员没有庞大的数据量与计算资源,因此需要借助于模型的迁移。
迁移学习可以很好的解决以上矛盾,具有以下优点:
(1)迁移学习对训练数据需求少,可更有效地利用现有数据;
(2)通过迁移学习的模型泛化能力更好;
(3)迁移学习训练过程更稳定,更容易调试,可增加模型的鲁棒性;
(4)迁移学习可以实现定制化。
总之,迁移学习减少了构建深度学习模型所需的训练数据、计算能力和工程人才的数量。正是利用迁移技术,思必驰可以在短时间内快速将单个发音人的音色,迁移成为四川话、粤语等方言以及英语等外语。
下一步,思必驰单人千音功能将逐渐覆盖河南话、山东话、东北话等各地方言,并向日语、法语等跨国语言方向延伸,助力更多客户打造多语言的AI产品。
参考文献:
1 J_Xiong0117,《 NLP迁移学习——迁移学习的概念与方法》博客.
https://blog.csdn.net/u013010473/article/details/106439332
—如有合作意向,请发邮件—
marketing@aispeech.com