AI换脸变声技术滥用成灾，网信办新规能否刹得住？

Original 走狗是狗哥安在 2022-07-03

撰稿 | 狗哥
编辑 | 图图

汉代经学家刘向在《说苑·政理》中有言：“夫耳闻之，不如目见之；目见之，不如足践之。”即“耳听为虚，眼见为实”。

几千年来，此话被奉为真理。但是当跨入到互联网时代，人工智能技术呈膨胀式发展之后，这句古老名言很可能不再准确。我们听到的，甚至是亲眼看到的，都不一定全是真实。

记得今年上半年，狗哥在某个互联网交流群中，看到一段长约1分钟的小视频。

结果，点开一看，满脸的不可思议。因为视频中正是某个当红国内女星，正衣不蔽体地做着不可描述的动作。

当时截了一张图，图片中可能不太明显看得出是哪个女星，但是看视频的时候，第一眼便辨认出了女星的身份。

这还得了，这种视频怎么会流传到网上？女星的公关团队都是废物吗？

经过几个群友提出疑问之后，有群友做了解释：原来，这些视频中的女主角，并不是女星本人，而是将女星脸蛋利用AI技术，“移植”到了其他女子的脸上，而其显示效果，已经达到了以假乱真的地步。

尔后，一位群友兴致勃勃地发了一张截图，似是炫耀他的电脑里相关资源不少。狗哥极为震惊，将那张图保存至今，因为想着有一天写文，一定能够用到。毕竟这是一起严重侵犯他人肖像隐私的做法，而这也正是狗哥长年关注的焦点。

看到上述截图，是不是在微微惊愕之后，有种背后发凉的感觉？

反正狗哥是如此。因为这项技术，肯定会广泛用在色情行业。女星是公众人物，可能公关团队发个声明，请专家做点技术分析，就能让公众知道这是假视频。

但是，若是AI换脸技术泛滥成灾，到了普通人都可以随手制作的地步，那会是怎样的一种场景？

狗哥不妨以最坏的心态来揣摩一些人。比如，拍几张身边女同事的照片，然后将其头像嫁接到某些爱动片中，在自我欣赏完毕后，再通过网络传播出去，造成的影响，简直不堪设想。

因为明星的发声渠道很广泛，而普通人一旦被诬陷，真会有种叫天天不应叫地地不灵的无力感。

除了这项极端的应用场景外，其实在网络上，无论出于恶搞的目的，还是别有用心的初衷，很多网友早已制作出了大量以假乱真的视频与图片。

比如下面这张，利用AI合成技术，不但利用了普京的嘴巴说话，还唯妙唯俏地模拟了普通的身体动作。如果单看动图或视频，你几乎看不出这是伪造的。

还有下图中的跳舞，你能分辨出哪个人是AI制作合成的吗？

深度换脸（deepfake），已然引起了国内外各方关注。今年11月，推特发布了首个反deepfake策略草案，并征集公众意见。根据这个草案，如果一份deepfake伪造的内容威胁到某人的人身安全或可能造成严重伤害，将会被删除。微软、Google等国外公司也在研究如何自动鉴别换脸视频。

超级大国的总统选举，更是担忧深度换脸技术的滥用。因为在诸多明争暗斗之中，视频的诋毁产生的攻击力，几乎在绝大多数手段之上。公众很难判断哪些视频是真是假，在一定程度上，必然会影响自己的选择判断。

前段时间，陌陌公司推出一款AI换脸软件ZAO，引起了互联网轩然大波。当然，客观来说，其中恶搞的成份居多。比如徐锦江，与好莱坞电影角色“雷神”、“海王”的外形谜之相似，所以就有了下图，看起来丝毫不违和。

这张徐锦江的动图，甚至还有些《倚天屠龙记》中金毛狮王谢逊的味道。

此后引起大量网友跟风，比如把杨幂的脸换在《倚天屠龙记之魔教教主》中张敏扮演的“赵敏”上，甚至还有换在其他女团成员身上。

《回家的诱惑》中最经典的“你好骚啊”梗，也逃不过被恶搞的命运。只是男女二人换脸之后，有种蜜汁鬼畜。

还有恶搞的网友，和自家狗子换脸。

至于用AI变声，则更加不是什么难事。

提到变声技术，很多人可能最初看到的是《名侦探柯南》中柯南使用的蝴蝶结变声器，柯南正是利用阿笠博士发明的变声器，把“沉睡的毛利小五郎”捧上了侦探界的神坛。

狗哥无意间发现，这种蝴蝶结变声器，在网上居然有销售，连原理和功能都标注得一清二楚。只是没有使用过，不知道效果究竟如何。

事实上，利用AI变声诈骗，案例可谓多如牛毛。其中比较有影响力的，当属下面这一则案例。

据《华尔街日报》报道，今年3月份，有犯罪分子就使用了变声AI技术，成功模仿了英国某能源公司在德国母公司CEO的声音，诈骗了220,000欧元（约1,730,806人民币）。

网络犯罪专家称，这是黑客攻击中利用AI技术的一次不寻常案例。

案发时，该公司的CEO误以为他正在与他的老板，也就是德国母公司的CEO通电话，老板要求他将资金汇给匈牙利供应商。

据该公司的保险公司Euler Hermes Group SA称，来电者表示该请求非常紧急，要求行政人员在一小时内付款。

慕尼黑的金融服务公司Allianz SE旗下子公司Euler Hermes的欺诈专家Rüdiger Kirsch说，犯罪分子总共打了三次电话。220,000欧元转移后，他们打电话说母公司已经转移资金偿还英国公司，然后他们在当天晚些时候进行了第三次电话会议，再次冒充首席执行官，要求第二次付款。

由于转账偿还资金还没有到来，而第三次电话是来自奥地利的电话号码，行政部门开始怀疑，没有支付第二笔款项。

Kirsch先生认为，使用AI诈骗对公司来说是新的挑战，传统网络安全工具无法发现欺骗性的声音，而黑客往往就是使用商业语音生成软件进行攻击。Kirsch先生用这种产品录制了自己的声音，并说复制版本听起来很真实。

在国内，变声技术早已被用于网络诈骗中，人民网微博最早在去年八月，就发布了利用微信语音诈骗的案件消息。

据了解，犯罪分子利用的是一种名叫“增强版微信”的软件，这种“增强版微信”具有能够转发语音消息、克隆好友朋友圈、看到对方撤回的消息等功能。

2018年，三名蒙特利尔大学博士联合创办的名为“琴鸟”（Lyrebird）的公司开发出了一种“语音合成”技术，只要对目标人物的声音进行1分钟的录音，丢给“Lyrebird”处理，就能得到一个特别的密钥，利用这个密钥可以生成目标人物任何想说的话。

“琴鸟”（Lyrebird）不仅能利用语音模仿演算模仿出任何人的声音，还能在声音中加入“感情”元素，让声音听上去更为逼真。

去年Black Hat大会上也展示了一种声音模拟技术，这项技术是通过获取某人长时间的录音，拼接其声音片段实现模拟。相关专家表示，虽然很难预测使用AI的网络攻击是否会很快上升，但如果AI技术能够让黑客攻击更成功或更有利可图，他们会更倾向于使用该技术。

事实上，高还原度的合成声音，背后依赖的技术正是神经网络（Neural Network）和机器学习（Machine Learning）。神经网络通过模拟电信号在人脑神经元之间的传递过程，对输入数据进行处理，同时利用分层的神经元，从大量样本数据中总结出共同特征。

第一个用神经网络生成人类自然语音的，就是Google的DeepMind研究实验室发布的WaveNet。

如上，我们不难发现，AI换脸变声已经到了滥用成灾的地步，如果不加约束，本来就充斥真真假假的互联网，将会变得更加面目全非。

近日，国家互联网信息办公室、文化和旅游部、国家广播电视总局联合印发了《网络音视频信息服务管理规定》，这份规定将在明年1月1日正式实施。

《规定》中第十、十一、十二、十三条，专门指出了AI深度学习人工智能技术对模拟合成声音、图像、视频的规范应用。

第十条：网络音视频信息服务提供者基于深度学习、虚拟现实等新技术新应用上线具有媒体属性或者社会动员功能的音视频信息服务，或者调整增设相关功能的，应当按照国家有关规定开展安全评估。

第十一条：网络音视频信息服务提供者和网络音视频信息服务使用者利用基于深度学习、虚拟现实等的新技术新应用制作、发布、传播非真实音视频信息的，应当以显著方式予以标识。

网络音视频信息服务提供者和网络音视频信息服务使用者不得利用基于深度学习、虚拟现实等的新技术新应用制作、发布、传播虚假新闻信息。转载音视频新闻信息的，应当依法转载国家规定范围内的单位发布的音视频新闻信息。

第十二条：网络音视频信息服务提供者应当加强对网络音视频信息服务使用者发布的音视频信息的管理，部署应用违法违规音视频以及非真实音视频鉴别技术，发现音视频信息服务使用者制作、发布、传播法律法规禁止的信息内容的，应当依法依约停止传输该信息，采取消除等处置措施，防止信息扩散，保存有关记录，并向网信、文化和旅游、广播电视等部门报告。

网络音视频信息服务提供者发现不符合本规定第十一条第一款要求的信息内容的，应当立即停止传输该信息，以显著方式标识后方可继续传输该信息。

第十三条：网络音视频信息服务提供者应当建立健全辟谣机制，发现网络音视频信息服务使用者利用基于深度学习、虚拟现实等的虚假图像、音视频生成技术制作、发布、传播谣言的，应当及时采取相应的辟谣措施，并将相关信息报网信、文化和旅游、广播电视等部门备案。

这几条的意思很明显，以后若是你制作了换脸换声的音视频，如果放到互联网上传播，必须注明这是后期加工制作，并且不得用这些音视频图像来进行造谣、诽谤、传播虚假新闻等。

对此，11月29日，国家网信办有关负责人就《规定》回答记者提问。

该负责人表示，当前，我国网络音乐用户规模已达6.08亿，网络视频用户规模已达7.59亿。网络音视频行业在持续高速发展的过程中，也带来传播违法和不良信息、侵犯人民群众合法权益等风险隐患；随着“深度伪造”等新技术新应用在网络音视频领域的运用，风险进一步集聚、放大。

此外，《规定》还要求，网络音视频信息服务提供者应当建立健全用户注册、信息发布审核、未成年人保护、知识产权保护等制度。并强调网络音视频服务提供者应对用户进行基于组织机构代码、身份证号、移动电话号码等方式的认证，用户不提供真实身份信息的，不得为其提供服务。

《规定》还提出，网络音视频信息服务提供者和网络音视频信息服务使用者违反《规定》的，由网信、文化和旅游、广播电视等部门依照《中华人民共和国网络安全法》《互联网信息服务管理办法》《互联网新闻信息服务管理规定》《互联网文化管理暂行规定》《互联网视听节目服务管理规定》等相关法律法规规定处理；构成违反治安管理行为的，依法给予治安管理处罚；构成犯罪的，依法追究刑事责任。

不得不说，这项新规是针对杂草丛生的互联网一针强有力的除草剂，此后AI换脸变声内容的传播，则有了法律法规上的约束，至少在一定程度上，可以遏制这种乱象。

愿我们每个人，都远离AI换脸变声技术的伤害。这不是一个空中楼阁式的担忧。可以肯定的是，虽然相关法规已经出台，但以后AI换脸变声将会是一个违法犯罪的爆发区。道魔相争，就看谁技高一筹。

我们自然永远站在法律法规的一边。正如《诗经》和《荀子·修身》中的两句名言所言——“道阻且长，行则将至”。

参考资料：

刘俊寰/大数据文摘：《欧洲首例AI诈骗！用CEO声音骗走22万，逼真语音合成只需1分钟录音》

任梦岩/科技富能量：《禁止AI换脸造假！法规终于来了》

推荐阅读

新锐 | 长亭科技杨坤：学霸团队是如何创业的？

▼加入诸子云

点【在看】的人最好看

反向激励，在加速这个社会的黑化

呼伦贝尔跨省抓捕，我弟弟指居期间死亡，泣求自治区调查真相

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

AI换脸变声技术滥用成灾，网信办新规能否刹得住？

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

呼伦贝尔跨省抓捕，我弟弟指居期间死亡，泣求自治区调查真相

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

生成图片，分享到微信朋友圈

AI换脸变声技术滥用成灾，网信办新规能否刹得住？

您可能也对以下帖子感兴趣