这个AI会利用音频合成假视频欺骗人类

原创 2017-07-31 E安全编辑部 E安全

更多全球网络安全资讯尽在E安全官网www.easyaq.com

E安全7月31日讯美国华盛顿大学的计算机科学家团队研究人员开发了一种机器学习算法，可以将声音片段变成能口型一致的视频内容。研究人员使用人工智能（AI）制作了一段美国前总统巴拉克·奥巴马谈论恐怖主义等多个话题的场景，视频中呈现的是奥巴马先前从未发表过的言论，相当逼真，毫无破绽，但这实际上却是使用现有的视频演讲人工生成的片段。

在网络飞速迅速发展的今天，网络上充斥着各种鱼目混珠的文字类假新闻，这已不足为奇。各种合成图片和剪辑视频遍布微博、微信、论坛，使人真假难辨，生成以假乱真的假新闻视频一天比一天容易。华盛顿大学的研究人员相信，该系统可以最终用于改进视频通话，甚至确定某段视频的真伪。

该系统对神经网络进行训练，使其学会观看人类讲话的视频，他们能将任意奥巴马音频片段生成真实的口型，之后将口型进行处理使其看起来更加逼真，并覆盖到不同 “目标”视频中的奥巴马面部。最终，研究人员会调整目标视频的时间，使得奥巴马的表情看起来自然，且与语言表达节奏相符。为了实现这一目标，他们将该校图形实验室之前的研究成果，与最新的口型合成技术结合起来。并且该技术还可以实现小幅时移，从而让神经网络预测说话者接下来所要表达的内容。

该团队之所以选择奥巴马，是因为这套系统需要14小时的视频进行学习，而奥巴马每周都有为时17个小时的演讲素材，他显然是最佳人选。

根据音频合成视频

此前外媒曾报道，去年6月，斯坦福大学的研究人员发布了类似的方法：实时修改某人的面部表情，以此模仿另一个人的表情。但是，华盛顿大学研究人员发布的这份新研究新增了一种功能，即直接根据音频合成视频。

https://v.qq.com/txp/iframe/player.html?vid=p0527zwnyl5&width=500&height=375&auto=0
华盛顿大学研究人员在研究报告中提到几种实际应用（将音频生成高品质视频），包括帮助听力障碍者在电话中通过唇语识别音频内容，或在电影和游戏行业中创造逼真的数字人物形象。但是，此类技术带来的负面影响更令人不安，因为这可能会大肆扩散视频假新闻。

但是，研究人员在研究中仅使用了真实的音频，他们能无缝跳过某些片段，并对奥巴马的语句重新排序，甚至使用奥巴马模仿艺人的音频达到近乎完美的效果。语音合成软件的快速发展还为伪造视频提供了简单、现成的解决方案。

判断视频的真伪尚需时日

目前视频合成技术的有效性受到指定人物的可用视频素材数量和质量限制。研究报告指出，AI算法至少需要几个小时的视频素材，无法处理某些边缘情况，例如面部轮廓。未来该算法或许只需要使用1个小时的视频就能识别某人的声音和说话模式。研究人员选择将奥巴马作为首个研究范例，不仅是因为奥巴马每周的演讲视频提供大量公开可用的高清晰素材（直面镜头），更因为其语调没有太大的起伏。而且这种神经网络目前只能一次学习一个人，该团队未来可能会开发各种算法来判断一段视频的真伪。

其它公众人物视频更具挑战性，对技术要求更高。据《经济学人》（The Economist）本月初报道，有一种解决方案可能要求录音包含元数据，即显示捕获录音的时间、地点以及方式。了解这些数据也许能从根本上剔除假图片，例如当时的已知局部特征不匹配。

由于各种新型假新闻充斥网络，消费者要擦亮眼睛、理性判断。而在社交网络上晒太多照片，在使用视频聊天工具保存的大量视频等网民的个人信息，这些是否在未来会带来安全隐患，也应值得关注。

31
E安全推荐文章

官网：www.easyaq.com

2017年7月

01美国第三届FinTech论坛三月召开将重点关注AI和区块链

02迪拜警方除了开跑车巡逻，还使用AI进行犯罪预测

03人工智能如何阻止勒索软件？

04人工智能将给网络安全行业带来什么影响？

05美国防部秘密武器专家：人工智能或将左右未来战场格局

06人工智能、机器学习及非恶意软件攻击的联系和缺陷

07人工智能会给企业带来哪些影响？