查看原文
其他

小心了!你的「声音DNA」可能会被复制

HurunReport 胡润百富 2019-11-25

如果有一种技术可以一秒复制或模仿你说话的声音,你会感到惊喜还是惊恐?


进入2019年,AI技术的应用落地越来越多样化。各大科技公司相继发布了语音合成技术的应用。通过AI手段,用户可以一秒变声社会名人或者其他想模仿的声音。



互联网技术在悄无声息地改变我们的生活,对人工智能企业来说,语音识别技术的广泛应用已不是难事。


比如,拨打10086等服务号,会听到一个甜美的女声为您引导;

比如,启用导航软件,会听到一个流畅的语音播报路况。

再比如,使用时下流行的打车软件,有清晰语音为师傅播报乘客的位置。


而这些声音,其实都是机器自动合成播报的。是研究人员通过语音合成技术,能够让机器发出的声音。并且,经过多年的发展,机器合成的声音不仅能够达成普通人说话水平,更能赋予声音以个性、情感。很多时候,甚至能以假乱真。


但背后的伦理道德和安全隐患,或将成为伴随AI技术发展不容忽视的一个问题。


变声技术的前世今生


最早的“语音合成”是利用机械装置实现的。Kratzenstein1779年研制出一种机械式语音合成器,用风箱模拟人的肺、簧片模拟声带、以皮革制成的共振腔模拟声道,通过改变共振腔的形状,可以合成出一些不同的元音。这可谓是人类历史上最早的合成技术。


19世纪出现电子器件以来,语音合成技术快速发展。在声音合成达到真人说话水平后,学界渐渐把眼光转向音色合成、情感合成等领域,力求使合成的声音更加自然,并具备个性化特征。


而国内的中文语音合成研究起步较晚。


1999年,以刘庆峰为首的研发团队创立了科大讯飞。怀抱着“中文语音技术应当由中国人做到全球最好,中文语音产业应当掌握在中国人自己手中”的信念,科大讯飞不断通过产学研合作的创新机制,有效整合语音技术源头资源,不仅把中文语音合成做好了全球最好,并且将多语种合成也做到了全球领先。


2000年,科大讯飞将KD2000语音合成系统正式推向市场,并且在同国际IT巨头的竞争中脱颖而出,2001年,华为公司宣布正式采购讯飞公司的合成产品。


2004年,科大讯飞在国家863中文语音合成评测中囊括所有指标第一。


2006年,科大讯飞正式发布面向终端产品的嵌入式参数合成系统Aisound,在车载、手机等终端设备,市场占有率达80%。


2006年,科大讯飞首次参加Blizzard Challenge国际英文合成大赛即夺冠,此后从2006年至今,已经连续9年夺得该项赛事冠军。


2010年,科大讯飞多语种合成系统发布,覆盖包括日、韩、法、俄、意、西班牙、葡萄牙、印地语、乌尔都语、越南语,以及维吾尔语、蒙古语、藏语等27个国家及民族语言,该系统科大讯飞完全拥有自主知识产权。


2014年,科大讯飞利用结合深度神经网络的统计参数语音合成方法构建了部分待测语种的合成系统,在这些语种上也取得了多项评测指标的第一名。


到了2019年,科大讯飞2019新品发布会上,科大讯飞董事长刘庆峰通过技术,现场模拟了单田芳、林志玲和罗永浩的声音来做开场白。尤其当罗永浩声音响起的时候,不少人以为老罗到了现场。


实时变声技术 一秒可换声


“你看到的是刘庆峰,但听到的是老罗的声音。台上的刘庆峰表示,这是公司最新的实时变声技术。据悉,这项新的语音合成技术只需要1分钟的声音样本,就可以模仿任何人说话。


不止科大讯飞,也是在近期,搜狗CEO王小川在一场大会上展示了搜狗变声功能,通过手机软件,王小川模拟了高晓松和东北妹子的声音,引得现场连连发笑。他随后展示了歌曲中的声音替换,据介绍,系统先用14分钟对他的语音做了训练,然后把音色做迁移。


这是搜狗最新的语音合成技术,可以实现把任何人的声音转化成特定声音,秒变林志玲、马云的声音都可以。王小川表示,这不只是一个简单的语音合成可以把语音语调情感做迁移


王小川


目前,在搜狗输入法中,用户可以将自己的声音自由变换成喜欢的声音,在微信、QQ、陌陌等主要社交场景均可使用。搜狗提供了明星、卡通人物、游戏 IP、方言等几个类别供19种特定声音。


这些AI技术落地应用的背后,一方面体现了AI技术应用的进展,和为社会带来的普惠价值理念。比如搜狗将语音变声技术、AI合成主播技术等与行业结合,在媒体、教育、内容制作、旅游等场景结合,将会带来更大的价值想象空间。


另一方面,未来可能存在的技术漏洞、技术滥用等风险也不容忽视。有网友就指出“小心被用于电信诈骗”“以后可能会收到‘马云’的电话”……


一音频领域业内人士认为,对于音频作为交互方式的工具型产品应该是有用的,但对于音频作为内容载体的线上音频平台,正面意义有待观察。


因此,对企业来说,在不断寻求技术突破和商业价值的同时,也应该树立对技术安全的责任心。


语音合成技术存在的硬伤

据了解,逼真的语音合成技术,背后是神经网络和机器学习的支持。神经网络模拟电信号在人脑神经元之间的传递过程,对输入数据进行处理,它利用分层的神经元,从大量样本数据中总结出共同特征。


语音合成技术在商业化落地方面,可见的在诸如语音交互、有声读物、新媒体、智能客服、泛娱乐等领域被应用。


虽然,语音合成技术在音频领域会大大降低文字内容转向音频的人员、时间和经济成本。但在实操层面有非常多的硬伤,比如合成后的音频与真实的人声在情绪和情感表达上肯定是做不到完全一致的。


只有最真实的人声才能引发深刻的情感共鸣,也是音频的价值所在。


而在道德和安全层面上,据了解,在一些音频平台上,语音合成技术主要用于儿童类节目,其他的内容上,AI模拟效果没那么好,尚未被广泛应用。


对于语音合成存在的安全隐患,在发布了变声技术后,刘庆峰现场曾强调:人工智能要持续发展,最核心的是它的价值观如何阳光健康与人为善,所以像变声技术这样一个黑科技,我们显然是不会轻易在各种App中对外开放的,一定是要有一种健康、安全又有趣的方式来跟这个世界来对接。


另外,他还提到:人工智能领域要技术合作,更要法律伦理的合作。


同时,王小川在媒体采访中也提到过人工智能立法:在当前人工智能发展的阶段,尽快根据技术发展不断调整和完善,是应对人工智能所带来的法律和伦理风险最为切实的手段。


不过,目前技术的发展仍然是走在伦理、法律的前面。未来如何发展,无人得知。在AI领域,如果没有人文的思考,可能设计出来的系统就是一个悲剧。


AI技术背后的人文思考


不管是AI变声,还是AI换脸,高科技迅速发展的同时,也给法律规则带来新的挑战。


值得注意的是,在4月全国人大常委会审议的《民法典人格权编(草案)里,正式加了一条:任何组织和个人不得以利用信息技术手段伪造的方式侵害他人的肖像权。


也就是说,一个好的信号是,未来AI换脸、甚至语音合成技术的应用或将受到法律管制。


目前,AI技术的落地应用,正在不断打通虚拟世界和现实世界的界限,我们需要思考的是,如果未来这些技术越来越强大和普及,明辨真假将会变得越来越困难,技术发展的同时又该如何把控安全隐患问题?


技术是一柄双刃剑,可以用来造福也可能带来灾难。



精彩回顾

滴滴:司机归还乘客遗失物品将收费,你赞同吗?


诺基亚、微软、三星都没做到的事,华为鸿蒙能成功吗?



❖ END ❖


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存