当心，AI偷走你的声音

Original 2018-01-26 六个太阳 读芯术

科技时代，我们更加怀念温暖邂逅的时光

后台回复“想要”，得到近期有温度的推荐

全文共3488字，预计阅读时长4分钟

AI让“好声音”随身相伴

“春天来了，万物复苏，又到了动物们交配的季节。”这样的台词搭配赵忠祥充满磁性和感染力的解说声线，不知道唤起多少寂寞的心。声优钉宫理惠的傲娇声线“无路赛，无路赛”，相信让无数宅男陷入YY当中。过去，好声音是稀缺品，但时代不同了——现在AI可以让任何你觉得心动的声音重新复现，设想一下，如果你特别思念某个人，让AI合成她的各种问候、播报和歌声，长绵的思念也会因此而变得缓慢一点吧。

在动画里，出场次数最多的毫无疑问是我们的万年小学生柯南童鞋，但第二多的，本君打赌你肯定猜不出来。

当当当当~蝴蝶结变（拟）声器！

因为几乎每集破案，柯南都要用它模仿毛利小五郎、铃木园子或者阿笠博士的声音，解开谜团，找出凶手和真相。

现在，这样的拟声器在人工智能技术的开发下，已经成了现实，并且可以做到毫无违和感，甚至声情并茂。

第一部全由AI配音的纪录片

“春天来了，万物复苏，又到了动物们交配的季节。”搭配赵忠祥充满磁性和感染力的解说声线，不知道唤起多少寂寞的心。声优钉宫理惠的傲娇声线“无路赛，无路赛”，相信让无数宅男陷入YY当中。

现在，人工智能也干起声优和配音的工作了，那是怎样的一种不可描述的声音呢？在纪录片《创新中国》里，你就能找到答案。

这部将于22日在央视播出的6集纪录片，在解说部分全程用的是人工智能来配音，AI模拟的是已故“配音大师”李易的声音。因此赢来了“世界第一部利用人工智能模拟人声完成配音的大型纪录片”的称号。

在首映式的现场，播放了一段李易生前的作品和《创新中国》中人工智能模拟的声音进行对比，主持人李瑞英和朱军的反应是：直呼“吓人”，“这两个有差吗？”几位央视主播还感觉自己的职业生涯受到了威胁。

让前总统奥巴马替你说话

比起让已故的经典声音被重现和唤醒，更有B格的是，让前总统奥巴马作为你的发言人替你说话。

我们可以用美图秀秀P出各种“照骗”，而新的AI 技术则可以创造出“声骗”，将声音档转换为说话嘴形，并套用在其他影片中，改变影片主角原本的说话内容；也就是，虽然是真的，但说话的内容是假的，效果可以逼真到难以从影片中察觉异状。

下面这两张视频截图来自奥巴马的电视演讲，你能看出什么问题么？

你能猜出哪一个视频是AI造的假吗？

https://v.qq.com/txp/iframe/player.html?vid=b0024lqzbmh&width=500&height=375&auto=0

这是去年７月华盛顿大学的计算机专家用最新开发的 AI 软件，用深度学习神经网络分析了大量奥巴马的音视频，细致到奥巴马讲话时的嘴唇、牙齿，甚至是嘴巴和下巴周围的皱纹，创造出来的一个美国前总统奥巴马。

只要用到其中的声音合成技术，任何人都可以变成奥巴马，用奥巴马的声音和脸实时说话，并根据你的表情、神态、口型来调整输出，若他本人看了大概都要怀疑是不是自己失忆了吧。

主持人一边说话，另一边实时同步生成奥巴马的口型和声音

所以，如果有了这套软件，你就可以先利用声音合成技术模仿出奥巴马的声音，再加上这套已经训练好、可将奥巴马声音转换为嘴形的模型，让奥巴马说出从未说过的话，比如让他开口给你升职，涨工资。

只需一分钟，你的声音就被偷走了

有了声音模拟合成技术，你不用捏着嗓子去模仿其他人，就可以偷走哪怕和你八竿子打不着的人的声音。而你，只需要提供一段一分钟的声音样本。

人工智能新创 Lyrebird 已经透过机器学习开发出声音模拟技术，号称只要 1 分钟的声音样本，利用语音模仿算法进行合成，就可以模仿任何人说话，还能对声音进行控制，带上愤怒、同情或紧张的情感，来段声情并茂的诗歌散文，或者如果学到了奥巴马的“精髓”，变身段子手不在话下。

AI拟声有人味儿，还能绕口令

AI虽然能模仿人说话，但是说话和说人话之间，区别还是大大嘀。我们听到的来自AI的声音，更多是冷冰冰，没有阴阳顿挫的电子音，听起来像个性冷淡的呆子，而人们口头交流，语气、音调都是门很深的学问。不过好消息是，人工智能在这方面也有了进展。

谷歌最近就发布了一个利用神经网络合成语音的模型，它可能会让电脑发出的声音变得更有“人味儿”。

根据dailymail报道，谷歌最近展示了一种新的语音系统，一个名为Tacotron 2的机器人，它通过真实的人类对话案例和文本记录进行训练，可以让语音助手的声音听起来更加自然，更加像真人的声音。

为了检验机器人究竟能把人话说到怎样的程度，研究人员对Tacotron 2的生成结果进行了五项的测评，包括：

1. 专有名词及复杂词语，比如“Basilar membrane and otolaryngology are not auto-correlations.”

2. 同一单词在不同时态及含义上的发音变化，比如“Don't desert me here in the desert!”，机器正确地读对了两个不同含义和发音的“desert”。

3. 拼写错误对发音的影响，比如“Thisss isrealy awhsome.”（正确写法应该是：this is really awesome.）AI完全没有受到干扰。

4. 标点符号位置的影响，比如“This is your personal assistant, Google Home.”和“This is your personal assistant Google Home.”系统就读出了不同的音调。

5. 重点突出部分及语调的把控，比如“The buses aren't the problem, they actually provide a solution.”和“The buses aren't the PROBLEM, they actually provide a SOLUTION.”这两个句子，Tacotron 2就加了着重音，在关键词上略有停顿，语调也不同。

6. 语调的把控，比如“The quick brown fox jumps over the lazy dog.”和“Does the quick brown fox jump over the lazy dog?”AI对疑问句和陈述句的语调区分还是很明显的。

听起来是不是有种回到了高考听力的感觉？

如果说上面这些还算常规，研究人员还想了一个损招——绕口令。

并且祭出了大招：

Peter Piper picked a peck of pickled peppers.

How many pickled peppers did Peter Piper pick?”

Did Peter Piper pick a peck of pickled peppers?

If Peter Piper picked a peck of pickled peppers,

where's the peck of pickled peppers Peter Piper picked?

还有“She sells sea-shells on the sea-shore. The shells she sells are sea-shells I'm sure.”

面对磨坏嘴皮子不偿命的绕口令，Tacotron 2是怎么表现的呢？在听下面这段录音前，不妨先练练你的嘴，你要是一遍下来不磕巴，评论区留言，送惊喜，凭良心哦吼吼。

声音算法如何工作

Tacotron 2的工作原理的说法是：使用序列-序列模型来映射序列字母到编码音频的功能，这其中还结合了发音、音量、速度和语调，所以它可以捕捉到人类发音的各种微妙之处。听不懂是吧？没事，本君也没懂，彪悍的人生不需要解释。

人声模拟也依靠声音算法，训练声音生成算法的第一步是给出各种声音，让它学习。通过深度学习，让它解构声音，并分析出音高，音强和其他特征。一旦有了一段声音的所有音节，这个系统就会把这些音节编在一起生成一个连贯的声音。

最终这个算法能够精确模拟不同撞击的细微差别，从摇滚音乐断开的音节，到常青藤摇晃时发出的沙沙声，就连音高也不是问题。

虽然可以比较流畅的生成自然人声，但他们还不能控制和理解系统所产生的音频，比如引导它的这段音频的感情是高兴还是悲伤。

人声模拟的福音

人声模拟这一技术可以得到广泛运用，比如充当个人助理、用名人的声音阅读有声书、或为残疾人合成“演讲”，或者提供个性化的语音服务，你看高德地图林志玲版，不就是机器通过学习特殊语料后，模仿独特人声在给司机指路嘛。

日本电气通信大学的一名助教，用了现在流行的人工智能领域的技术，自己开发出了可以完全将自己的声音变为他人声音的声音变换技术，这项技术最大的利用价值就是在配音行业。

在最被看好的配音行业的应用，动漫、电影和视频游戏中将作为主要的场景，成为人声模拟AI的用武之地。比如一些声优去世后但是声优参与配音的动画还在播出，怎么办？这时就可以利用这项技术让声音重现，让动画作品更加连贯。

受不了海外电影的翻译版？不想在引进的韩剧里翻来覆去都是同样那几个人的声音？想要原汁原味的声音又想方便理解？人声模拟都可以满足你的需要，带来更好的观片体验。

你说的一切还能成为呈堂证供吗？

“你有权保持沉默，但你所说的一切都会成为呈堂证供。”录音常被视作强有力的证据被国家的司法系统看重，但是人声模拟却给录音证据的有效性带来了挑战。

因为居心叵测的人可以利用这项技术轻易操纵录音，从而破坏了录音作为证据的可信度，或者窃取他人身份和声音实施诈骗。

如果录音的真伪难以分辨，或许不久的一天，录音不再是有效的证据。

不过另一个需要担心的是，我们的声音，如何保护起来，不被偷走？

读芯君开扒

AI说“爱你一万年”，你会心动吗？

AI进行人声模拟，虽然能够在音调、语气上有所区别，但缺陷是，它还不能理解人说话的语气和情绪，比如《大话西游》里“喜欢一个人需要理由吗？需要吗？不需要吗？需要吗？”AI现在肯定不能读出其中的曲折婉转。而那句“爱你一万年”的情话，要让现在的AI说，想必没有几个女孩子会心动吧。

前面我们听到的AI对一些疑问语调的区分，对某个字词的强调还是基于一些非常浅显的提示词，像是“Does”“Is”开头的疑问句，或者说是顺着一种固定的形式做出的反应，而人类口头上的音调、语气的处理都是基于特定的情境，往往并不能从字眼上直接判断。

所以，AI在模拟的方向或许还有偏差，要想读出我们语言的韵味，还得先理解语言本身。

不过机智的网友们还是发现了AI人声模拟的一个bug，把大中华56个民族的上千种方言给AI来一打……嘿嘿，AI你弄飒嘞~萌了蛤虸。

留言点赞发个朋友圈

我们一起探讨AI落地的最后一公里

作者：六个太阳

参考文献：

http://mini.eastday.com/mobile/171230135132670.html

https://baijia.baidu.com/s?old_id=497196

如需转载，请后台留言，遵守转载规范

推荐文章阅读

这样面试，你的成功率将达到90%

你们长得太像了！但又不一样！

不想被人脸识别？请这样做

拿去！助你赢得百万大奖的Python代码已上线

长按识别二维码可添加关注

读芯君爱你

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

这样的洞庭湖决堤，实在让人同情不起来

有的人走了，却永远活着

圈内疯传某谣言

不要放过这些人渣