AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?
基于自编码技术的AI换脸项目ALAE成功登顶了Github趋势榜(https://github.com/podgorskiy/ALAE):
相比于之前的人脸图像处理的项目,ALAE可谓是大BOSS的级别了,随便贴几张效果图大家来感受一下。
不但图像分辨甩之前几代的换脸模型几条街,学习过程的可视化也更强:
截至笔者发稿时,ALAE有两个自编码器:一个是基于MLP编码器,另一个基于StyleGAN对抗神经网络的生成模型,也可以称之为StyleALAE。ALAE的作者们将这两种体系结构的结合。结果表明,StyleALAE在各方面的性能都优于上一代的StyleGAN,且在相同分辨率下还可以生成更真实的人脸重构信息。
笔者初步在GitHub上看了一下,由那个大名鼎鼎的换脸应用Deepfaks衍生的如faceswap,DeepFaceLab的开源项目数量不下十几个,其中以faceswap、Openfaceswap等开源项目为代码的换脸技术在GitHub上的更新与讨论十分热烈,推动了开源换脸技术的迭代速度。
以FaceApp为代表的项目虽然没有开源,但是它们提供了支持一键式操作的应用程序,极大地降低了换脸技术的使用门槛。
笔者在嘘!我看到了你 60 岁的样子!一文中回顾下AI换脸技术的发展历程:
Pix2Pix:AI换脸的祖师级模型
刚刚提到如deepfaks的换脸应用,是参考了Pix2Pix的思想。Pix2Pix是基于对抗神经网络GAN的模型,其目标是由图像的轮廓,还原回真实图像,目前读者可以到https://affinelayer.com/pixsrv/这个网站来感受一下,如何从随便画出的简笔画转换成真实的图像。
后来N厂又提出了Pix2PixHD技术,Pix2PixHD把之前由Pix2Pix生成的图像分辨率提高了很多。可以说PIX2PIX是后面这些AI换脸等技术的理论基础,正是凭借AI强大的联想及脑补能力使以上应用成为了可能。
CycleGAN:风云变色的模型
2017年,加州大学伯克利分校的教授提出了CycleGAN模型,CycleGAN使用循环一致性损失函数来实现训练,来完成将图片中一个域到另一个域的无缝转换。简单来说CycleGAN能将图像的主题风格或者某一域主体完美进行切换,具体效果如下:
斑马与马的互转
CycleGAN有升级版的UGATIT,其效果更好,可以用在卡通风格的转换:
CycleGAN出现后,图像主题无缝切换将图像伪造技术提升了一个高度,在换脸之余还能把原背景主题进行切换,给鉴定带来麻烦。
StyleGAN:ALAE先导模型
StyleGAN模型也是N厂提出的,用来计算Picure A与Picture B结合的结果,StyleGAN还支持多种结合模式,详见下表:
Style 等级 | Picture A | Picture B |
高等级(粗略) | 所有颜色(眼睛,头发,光线)和细节面部特征来自Picture A | 继承Picture B高级的面部特征,如姿势、一般的发型、脸部形状和眼镜 |
中等级 | 姿势、一般的面部形状和眼镜来自Picture A | 继承Picture B中级的面部特征 ,如发型,张开/闭着的眼睛 |
高等级(细微) | 主要面部内容来自Picture A | 继承Picture B高级面部特征,如颜色方案和微观结构 |
其两张图像按照三种style结合的效果如下图:
AI换脸的发展趋势
目前AI换脸的相关模型除了在效果方面不断取得突破之外,也有其它方面的发展动向,具体如下:
图像修复:Partialconv模型可以通过AI对于图像进行修复,这又是一个N厂提出的模型,即使图像丢失了大面积的像素,能通过AI将损失进行修复,Partialconv也是所谓的一键”去“衣、一键”去“码之类应用的鼻祖,其效果图如下:
多媒体合成:Speech-Driven Facial Animation是一个由三星提出的使用照片加音频合成视频的模型。SDA能够仅使用人的静止图像和包含语音的音频剪辑来产生动画面部。其生成的视频不仅可以产生与音频同步的唇部动作,还可以呈现特有的面部表情,例如眨眼,眉毛等,同时能够捕捉说话者的情绪并将其反映在面部表情中。
原图如下:
SDA处理之后生成的图像,静止图像立刻活灵活现起来。
AI换脸等技术的兴起可能会让未来的身份识别及认证造成一些麻烦,如果一旦将人脸面部信息与具体的人联系起来,那么人脸信息就可能被滥用,如何研发可靠的技术来鉴定真伪?是我们开发者值得关注的地方。
更多精彩推荐
☞用 Python 实现手机自动答题,下一个百万获奖人可能就是你!
☞用 Python 实现手机自动答题,这下百万答题游戏谁也玩不过我!
☞IDEA 惊天 bug:进程已结束,退出代码 1073741819