查看原文
其他

当心,AI偷走你的声音

2018-01-26 六个太阳 读芯术

科技时代,我们更加怀念温暖邂逅的时光

后台回复“想要”,得到近期有温度的推荐


全文共3488字,预计阅读时长4分钟



AI让“好声音”随身相伴


“春天来了,万物复苏,又到了动物们交配的季节。”这样的台词搭配赵忠祥充满磁性和感染力的解说声线,不知道唤起多少寂寞的心。声优钉宫理惠的傲娇声线“无路赛,无路赛”,相信让无数宅男陷入YY当中。过去,好声音是稀缺品,但时代不同了——现在AI可以让任何你觉得心动的声音重新复现,设想一下,如果你特别思念某个人,让AI合成她的各种问候、播报和歌声,长绵的思念也会因此而变得缓慢一点吧。


在动画里,出场次数最多的毫无疑问是我们的万年小学生柯南童鞋,但第二多的,本君打赌你肯定猜不出来。


当当当当~蝴蝶结变(拟)声器!



因为几乎每集破案,柯南都要用它模仿毛利小五郎、铃木园子或者阿笠博士的声音,解开谜团,找出凶手和真相。



现在,这样的拟声器在人工智能技术的开发下,已经成了现实,并且可以做到毫无违和感,甚至声情并茂。


第一部全由AI配音的纪录片


“春天来了,万物复苏,又到了动物们交配的季节。”搭配赵忠祥充满磁性和感染力的解说声线,不知道唤起多少寂寞的心。声优钉宫理惠的傲娇声线“无路赛,无路赛”,相信让无数宅男陷入YY当中。



现在,人工智能也干起声优和配音的工作了,那是怎样的一种不可描述的声音呢?在纪录片《创新中国》里,你就能找到答案。


这部将于22日在央视播出的6集纪录片,在解说部分全程用的是人工智能来配音,AI模拟的是已故“配音大师”李易的声音。因此赢来了“世界第一部利用人工智能模拟人声完成配音的大型纪录片”的称号。


在首映式的现场,播放了一段李易生前的作品和《创新中国》中人工智能模拟的声音进行对比,主持人李瑞英和朱军的反应是:直呼“吓人”,“这两个有差吗?”几位央视主播还感觉自己的职业生涯受到了威胁。


让前总统奥巴马替你说话


比起让已故的经典声音被重现和唤醒,更有B格的是,让前总统奥巴马作为你的发言人替你说话。



我们可以用美图秀秀P出各种“照骗”,而新的AI 技术则可以创造出“声骗”,将声音档转换为说话嘴形,并套用在其他影片中,改变影片主角原本的说话内容;也就是,虽然是真的,但说话的内容是假的,效果可以逼真到难以从影片中察觉异状。


下面这两张视频截图来自奥巴马的电视演讲,你能看出什么问题么?



你能猜出哪一个视频是AI造的假吗?


https://v.qq.com/txp/iframe/player.html?vid=b0024lqzbmh&width=500&height=375&auto=0


这是去年7月华盛顿大学的计算机专家用最新开发的 AI 软件,用深度学习神经网络分析了大量奥巴马的音视频,细致到奥巴马讲话时的嘴唇、牙齿,甚至是嘴巴和下巴周围的皱纹,创造出来的一个美国前总统奥巴马。



只要用到其中的声音合成技术,任何人都可以变成奥巴马,用奥巴马的声音和脸实时说话,并根据你的表情、神态、口型来调整输出,若他本人看了大概都要怀疑是不是自己失忆了吧。


主持人一边说话,另一边实时同步生成奥巴马的口型和声音


所以,如果有了这套软件,你就可以先利用声音合成技术模仿出奥巴马的声音,再加上这套已经训练好、可将奥巴马声音转换为嘴形的模型,让奥巴马说出从未说过的话,比如让他开口给你升职,涨工资。


 

只需一分钟,你的声音就被偷走了


有了声音模拟合成技术,你不用捏着嗓子去模仿其他人,就可以偷走哪怕和你八竿子打不着的人的声音。而你,只需要提供一段一分钟的声音样本。


人工智能新创 Lyrebird 已经透过机器学习开发出声音模拟技术,号称只要 1 分钟的声音样本,利用语音模仿算法进行合成,就可以模仿任何人说话,还能对声音进行控制,带上愤怒、同情或紧张的情感,来段声情并茂的诗歌散文,或者如果学到了奥巴马的“精髓”,变身段子手不在话下。


AI拟声有人味儿,还能绕口令


AI虽然能模仿人说话,但是说话和说人话之间,区别还是大大嘀。我们听到的来自AI的声音,更多是冷冰冰,没有阴阳顿挫的电子音,听起来像个性冷淡的呆子,而人们口头交流,语气、音调都是门很深的学问。不过好消息是,人工智能在这方面也有了进展。


谷歌最近就发布了一个利用神经网络合成语音的模型,它可能会让电脑发出的声音变得更有“人味儿”。


根据dailymail报道,谷歌最近展示了一种新的语音系统,一个名为Tacotron 2的机器人,它通过真实的人类对话案例和文本记录进行训练,可以让语音助手的声音听起来更加自然,更加像真人的声音。


为了检验机器人究竟能把人话说到怎样的程度,研究人员对Tacotron 2的生成结果进行了五项的测评,包括:


1. 专有名词及复杂词语,比如“Basilar membrane and otolaryngology are not auto-correlations.”


2. 同一单词在不同时态及含义上的发音变化,比如“Don't desert me here in the desert!”,机器正确地读对了两个不同含义和发音的“desert”。


3. 拼写错误对发音的影响,比如“Thisss isrealy awhsome.”(正确写法应该是:this is really awesome.)AI完全没有受到干扰。


4. 标点符号位置的影响,比如“This is your personal assistant, Google Home.”和“This is your personal assistant Google Home.”系统就读出了不同的音调。


5. 重点突出部分及语调的把控,比如“The buses aren't the problem, they actually provide a solution.”和“The buses aren't the PROBLEM, they actually provide a SOLUTION.”这两个句子,Tacotron 2就加了着重音,在关键词上略有停顿,语调也不同。


6. 语调的把控,比如“The quick brown fox jumps over the lazy dog.”和“Does the quick brown fox jump over the lazy dog?”AI对疑问句和陈述句的语调区分还是很明显的。


听起来是不是有种回到了高考听力的感觉?


如果说上面这些还算常规,研究人员还想了一个损招——绕口令。


并且祭出了大招:


Peter Piper picked a peck of pickled peppers.

How many pickled peppers did Peter Piper pick?”

Did Peter Piper pick a peck of pickled peppers?

If Peter Piper picked a peck of pickled peppers,

where's the peck of pickled peppers Peter Piper picked?


还有“She sells sea-shells on the sea-shore. The shells she sells are sea-shells I'm sure.”


面对磨坏嘴皮子不偿命的绕口令,Tacotron 2是怎么表现的呢?在听下面这段录音前,不妨先练练你的嘴,你要是一遍下来不磕巴,评论区留言,送惊喜,凭良心哦吼吼。



声音算法如何工作


Tacotron 2的工作原理的说法是:使用序列-序列模型来映射序列字母到编码音频的功能,这其中还结合了发音、音量、速度和语调,所以它可以捕捉到人类发音的各种微妙之处。听不懂是吧?没事,本君也没懂,彪悍的人生不需要解释。



人声模拟也依靠声音算法,训练声音生成算法的第一步是给出各种声音,让它学习。通过深度学习,让它解构声音,并分析出音高,音强和其他特征。一旦有了一段声音的所有音节,这个系统就会把这些音节编在一起生成一个连贯的声音。


最终这个算法能够精确模拟不同撞击的细微差别,从摇滚音乐断开的音节,到常青藤摇晃时发出的沙沙声,就连音高也不是问题。


虽然可以比较流畅的生成自然人声,但他们还不能控制和理解系统所产生的音频,比如引导它的这段音频的感情是高兴还是悲伤。


人声模拟的福音


人声模拟这一技术可以得到广泛运用,比如充当个人助理、用名人的声音阅读有声书、或为残疾人合成“演讲”,或者提供个性化的语音服务,你看高德地图林志玲版,不就是机器通过学习特殊语料后,模仿独特人声在给司机指路嘛。



日本电气通信大学的一名助教,用了现在流行的人工智能领域的技术,自己开发出了可以完全将自己的声音变为他人声音的声音变换技术,这项技术最大的利用价值就是在配音行业。


在最被看好的配音行业的应用,动漫、电影和视频游戏中将作为主要的场景,成为人声模拟AI的用武之地。比如一些声优去世后但是声优参与配音的动画还在播出,怎么办?这时就可以利用这项技术让声音重现,让动画作品更加连贯。



受不了海外电影的翻译版?不想在引进的韩剧里翻来覆去都是同样那几个人的声音?想要原汁原味的声音又想方便理解?人声模拟都可以满足你的需要,带来更好的观片体验。


你说的一切还能成为呈堂证供吗?


“你有权保持沉默,但你所说的一切都会成为呈堂证供。”录音常被视作强有力的证据被国家的司法系统看重,但是人声模拟却给录音证据的有效性带来了挑战。


因为居心叵测的人可以利用这项技术轻易操纵录音,从而破坏了录音作为证据的可信度,或者窃取他人身份和声音实施诈骗。


如果录音的真伪难以分辨,或许不久的一天,录音不再是有效的证据。



不过另一个需要担心的是,我们的声音,如何保护起来,不被偷走?


读芯君开扒


AI说“爱你一万年”,你会心动吗?

AI进行人声模拟,虽然能够在音调、语气上有所区别,但缺陷是,它还不能理解人说话的语气和情绪,比如《大话西游》里“喜欢一个人需要理由吗?需要吗?不需要吗?需要吗?”AI现在肯定不能读出其中的曲折婉转。而那句“爱你一万年”的情话,要让现在的AI说,想必没有几个女孩子会心动吧。

 

前面我们听到的AI对一些疑问语调的区分,对某个字词的强调还是基于一些非常浅显的提示词,像是“Does”“Is”开头的疑问句,或者说是顺着一种固定的形式做出的反应,而人类口头上的音调、语气的处理都是基于特定的情境,往往并不能从字眼上直接判断。

 

所以,AI在模拟的方向或许还有偏差,要想读出我们语言的韵味,还得先理解语言本身。

 

不过机智的网友们还是发现了AI人声模拟的一个bug,把大中华56个民族的上千种方言给AI来一打……嘿嘿,AI你弄飒嘞~萌了蛤虸。


留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


作者:六个太阳

参考文献:

http://mini.eastday.com/mobile/171230135132670.html

https://baijia.baidu.com/s?old_id=497196


如需转载,请后台留言,遵守转载规范


推荐文章阅读


这样面试,你的成功率将达到90%

你们长得太像了!但又不一样!

不想被人脸识别?请这样做

拿去!助你赢得百万大奖的Python代码已上线

如果有一天,AI开口和你谈权利

“祝你永远幸福”,不是吹牛,是真的!

未来如何避免雪乡式被宰?

当AI来拍MV,画面简直流鼻血……

让我一次“架”个“构”

AI这么火,科技公司却争着开源,傻吗?

图灵测试,测的到底是什么?

不好意思,我随便“跳一跳”就破万了

AI水军的点评,认出来算我输

别考驾照了!无人车正在派送中

AI开发者们的江湖

无人车出了事故,谁负责?

多年来,我只坚持做到一件事:吃肉

考试季,AI又来辗压人类了

“AI奇点”是个什么鬼?

碉堡了!AI在发展过程中的BUG


长按识别二维码可添加关注

读芯君爱你


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存