近年来基于AI换脸的技术,不但在 GitHub 上时常兴风做浪,也经常引发各大社交媒体的大规模口水战。去年 AI 换脸技术开始在 Reddit 社区流行,一位名叫 Deepfakes 的“大神”发出不雅视频,影片女主角竟然是知名影星,由于内容低俗短时间吸引就使得 Deepfakes 聚集大量人气,很快 Reddit 封杀Deepfakes 的视频,同时 GitHub 对 Deepfakes 及其衍生项目进行封杀。
去年4月初,我国网名叫“换脸哥的极客”将朱茵在94版射雕中的黄蓉换成了杨幂,整段视频毫无违和感,这也让国人初次体会到了AI换脸的威力。后来一款名叫 ZAO 的 App 横空出世,在直播平台上主播们利用实时换脸技术,可以将自己换成某些一线明星来吸引眼球,火爆一时。今年年初使用自编码模型技术的AI换脸项目 ALAE 成功登顶 GitHub 趋势榜(https://github.com/podgorskiy/ALAE),相比之前的 Faceswap 以及 Deepfakes 等换脸项目,ALAE可谓将 AI 换脸带到新高度,这种最新的技术突破了之前的分辨率极限,可以生成高清的换脸图像,以下是效果图:
这些换脸的项目终于迎来了克星!微软打造的视频鉴真工具,可以让经由 Deepfake 等工具处理的伪造视频原形毕露,其鉴别成功率可达99%以上,以下是鉴定效果图:
歌神频繁助攻抓罪犯,人脸识别成 AI 应用领域 C 位
在歌神张学友的演唱会上,AI至少不下5次帮助公安机关抓捕到逃亡多年的嫌犯。这让那首经典的《她来听我的演唱会》有了新的含义。当时大众普遍对 AI 还缺乏了解,据称当时犯人在被捕时都一脸茫然,没想到人脸识别技术能在若干年后准确找到他们,人们惊呼原来人脸识别准确率这么高 。人脸识别技术在人员身份认证上所体现出来的便捷性及带来的效率提升,相关人脸识别产品、解决方案层出不穷。人脸识别被广泛应用于机场、火车站、社区、园区等诸多场景的身份识别、考勤打卡及金融支付应用当中。这开启了一个方便快捷的时代,用户不需要输入密码,甚至连手指不需动一下就能完成相关的身份认证,其来势汹汹的气势让很多金融机构也不得不放下身段,躬身入局,向科技公司请求AI技术的加持,把人脸识别加入自身安全认证体系当中。AI换脸技术的出现,着实给人脸识别技术的安全性造成了不小的挑战,比如去年5月美国议长南希·佩洛西的一段醉酒视频在 Facebook 上流传甚广,视频中的议长明显是状态晕沉,醉意十足,后来证明这是一段是 由Deepfake 生成的假视频。Facebook 创始人小扎的一段视频也开始疯传,在视频中小扎说“让我们快速地想象一下,一个人手握偷窃来的数十亿人的隐私信息,他们的所有秘密、生活和未来等等 ”,这也是 Deepfake 杰作。随着对抗神经网络(GAN)的不断发展,AI生成的假人物越发真假难辩,尤其去年底一名叫做Katie Jones的女政治家,似乎正在美国政坛冉冉升起,她在顶级智库工作,拥有由一批专家和权威人士组成的关系网。她与一名助理国务卿、一名参议员的高级助理以及经济学家 Paul Winfree 都有联系,搜索引擎上也能查到相应的新闻报道,不过这位女士并不存在,对此美联社已经作出确认,其面部信息是合成的,其相关新闻都是AI捉刀写的。据说这样的幽灵用户在脸书上还有几十万个,这些帐户可以在社交媒体上不知疲倦的发贴点赞,对于时事发表观点,这也是特朗普当局指责脸书干扰美国大选的主要原因之一。虽然AI换脸技术不断发展,但是AI鉴定技术也一直在进步,比如在去年CVPR2019 大会上,Photosho p母公司 Adobe 联手伯克利共同推出了论文《Learning Rich Features for Image Manipulation Detection》,提出的模型可以用于侦测图像是否有被 PS 修改过。这款反 PS 工具准确率极高,据论文数据显示,一般人眼分辨 PS 痕迹大约有 53% 准确率,即使是专业人士不超过 70%,这款反 PS 工具识别准确率高达99%以上。CVPR2020 上,由华为与复旦大学联合发表了一篇论文《FM2u-Net: Face Morphological Multi-Branch Network for Makeup-Invariant Face Verification》,这篇论文可以通过 AI 将照片中的人物卸妆,防止恋爱中的男女被“照骗”。此次由微软推出的鉴真工具可进行逐帧分析,以验证图像有无存在篡改,不过此工具仅对 Deepfakes、Faceswap 等算法有效,如果使用一种没有公开或者未知的算法,其鉴定准确率无法保证,微软承认最安全的方法还是基于其云服务Windows Azure 的组件对图像添加数字散列和证书。无论如何现在这样一套可以针对已知换脸算法进行鉴定的工具,还是很有价值和现实性意义的。去年年末,谷歌发表了论文SV2TTS(https://arxiv.org/pdf/1806.04558.pdf),SV2TTS 使用低分辨率的原音信息,在短时间内完成转换,生成新的声音。这个算法一经问世,就技惊四座,瞬间霸榜GitHub。这种换声技术的出现,再结合三星提出 Speech-Driven Facial Animation 生成的视频不仅可以产生与音频同步的唇部动作,还可以呈现特有的面部表情,例如眨眼,眉毛等,同时能够捕捉说话者的情绪并将其反映在面部表情中。这将使得单纯的AI换脸鉴定失去其原有意义。可以说目前只利用单一技术手段的“单模”用户身份识别方案,其可信性与安全性都要打上一个大大的问号,据最新的用户体验调研,但凡要在操作中多付出一秒的时间就要承担30%左右的用户流失,企业不能接受这成本的。所以让用户走回相对安全密码认证的老路完全行不通,这要求大家在安全性与用户体验方面做出平衡选择,这正是多模融合身份识的战略机遇。多模态融合的生物识别实际共有两层含义,一是指综合使用“人脸、指纹、掌纹、声纹”多模态的等生物信息,二是指在人脸识别领域,综合使用“2D人脸、3D人脸、多光谱人脸”等多种模态,以发挥各模态特定的优势。比起单模态的识别技术,多模态类似于一种结构化框架,综合获取多渠道的信息,并根据相应渠道的权值来取得最终结果,这样不仅提升了系统的识别的准确率,还提升了系统的可靠性与容错能力。在多模识别方面我国进展很快,近日阿里宣布在电气和电子工程师协会(IEEE)成功申请成立“移动设备生物特征识别”标准工作组,并立项“生物特征识别多模态融合”国际标准,牵头生物识别国际标准的订立。相信成立标准工作组及国际标准,有助于中国APP在全球范围内实现更安全、更规范的应用。据悉,此前阿里及蚂蚁集团已主导及参与制定ISO、ITU国际标准以及国家标准90余项,其中30余项为生物识别技术领域的国际和国家标准。“一流的公司定标准,二流的公司做技术,三流的公司做产品”,历来龙头企业之间归根结底都是标准之争,如果从顶层规定了技术框架、业务流程、功能要求、性能要求以及安全要求,实际引领了整个时代的潮流,并掌握话语权。
更多精彩推荐
☞仙童半导体和“八叛逆”所缔造的硅谷模式
☞TypeScript 的存在削弱了 JavaScript 生态系统?
☞马斯克终成乔布斯
☞5个入门网站教你识别去中心化项目
☞17 年安全界老兵,专注打造容器安全能行吗?