蚂蚁携手 CVPR22 举办视觉算法双竞赛,详解Top团队方案
由 IEEE 举办的计算机视觉和模式识别领域的世界级学术顶会 CVPR,每年都会吸引全球众多专业人士参与,不仅是学者展示前沿科技成果的会议,也是各界探索学术应用的平台。
作为人工智能技术领域的深耕者,蚂蚁集团携手 CVPR22 the 17th IEEE Computer Society Workshop on Biometrics,并联合国内外知名高校及行业权威机构,在阿里云天池平台举办了 Workshop 双竞赛。
比赛共吸引全球 1300 余支队伍报名参赛,最终,来自华中科技大学、上海科技大学、南京理工大学的团队获得「宠物生物特征识别竞赛」的前三名,来自网易、字节跳动、美团的团队获得「图像篡改检测竞赛」的前三名。
双赛道并行 共同探索计算机视觉技术革新之道
赛道一:宠物生物特征识别竞赛
随着宠物经济的迅猛增长,AI 技术赋能宠物产业也逐渐成为了业界关注的热点,例如通过技术手段进行宠物身份认证,在宠物管理、交易、医疗、保险等诸多应用场景中具备重要社会与经济价值。为此,蚂蚁集团联合复旦大学人工智能创新与产业研究院推动举办宠物相关的系列学术竞赛,旨在鼓励技术创新,以解决真实场景下的宠物犬身份认证难题。其中,华中科技大学、上海科技大学和南京理工大学分别以 AUC 0.9087 分、0.8881 分、0.8667 分荣获该竞赛的前三名,为实现宠物鼻纹特征识别提供了突破性的解决方案。
华中科技大学:基于实例特征的难样本加权对比损失,优化提升宠物鼻纹的区分度
犬类的鼻部纹理,类似于人类的指纹,具备身份唯一性,可用于提取身份特征确认犬的身份。来自华中科技大学的团队首先基于对比和度量学习来提取鼻纹的特征信息,使用 OIM 损失探索不同 ID 的特征之间的关系,进行粗粒度的学习。由于相同品种的宠物鼻纹只有细微的差异,该团队创新提出了一种基于实例特征的难样本加权对比损失。该方法能记录所有训练图片的特征并在线更新,每个样本需要在特征池里寻找前 N 个难负样本进行对比损失。同时,对正样本也根据相似度进行加权,以此加强对难正样本的学习。通过这种基于实例特征的难样本加权对比损失,可以加强细粒度样本之间的区分度。此外,该团队还使用数据增强与多模型融合技术来应对拍摄过程中光照、角度变化,在真实数据上取得更高的识别准确率。
上海科技大学:基于对比学习双全局描述器的宠物鼻纹匹配方案
考虑到比赛中每只宠物的图片比较少,来自上海科技大学团队的思路是将其作为图像检索任务来处理。首先参考了图像检索的相关工作,选择使用监督对比损失作为目标损失函数。通过观察训练集和验证集,该团队还发现训练集的图片大小和清晰度和验证集存在差异,于是在训练时先以一定的概率将图片缩放到一个较小的尺寸,再缩放到较大的输入尺寸。另外,在推理时直接使用池化结果作为最终的特征,这样能保留更多的细节,并且尽可能使用更大的 batch size 提升对比学习的性能。在比赛过程中,该团队还使用了 TTA、AMP、EMA 等技术,采用数据增强对模型进行微调,以提升泛化能力。
南京理工大学:多尺度特征融合结合离在线数据增强的宠物鼻纹识别方案
来自南京理工大学的团队离线使用了随机仿射变换、滤波模糊(高斯滤波、中值滤波和均值滤波)和图像锐化进行样本扩充,在线训练时则使用了 Aug-Mix, Affine, Color-Jitter 等数据增强避免过拟合。该团队参赛模型的骨干网络使用 ResNeSt,聚合模块使用 Gem Pooling,分类头采用 BN-neck。训练时,分类损失采用标签平滑的交叉熵损失函数,度量学习采用 soft-margin triplet loss 和 circle loss,并使用 XBM 进行难例挖掘。在后处理方面,该团队采用了单一模型不同尺度的特征进行 concat, 再使用余弦相似性进行距离度量。
复旦大学浩清特聘教授,人工智能创新与产业研究院院长漆远表示,本次比赛的初心,是为来自高校与企业的优秀算法人才提供贴近真实场景的数据与赛题,让大家能够在这个平台上竞技与交流,探索前沿技术解决真实世界问题的可能性。我们很高兴看到最终获奖团队的技术方案是针对宠物鼻纹识别任务的特点,提出了创新的优化,而并非现有技术的简单堆砌,从而在众多参赛者中脱颖而出。本次比赛获奖团队的方案均已开源,我们希望通过这种方式,促进人工智能技术在宠物产业中的应用,推动行业的发展进步。
赛道二:图像篡改检测竞赛
图像处理技术的发展,让数字图片可以轻易地被编辑和修改。经过篡改后合成的图像多被用于色情内容、虚假新闻诱导舆论中,不仅降低了内容的真实性和可信度,还侵犯个人隐私,扰乱社会秩序。为此,蚂蚁集团联合新加坡南洋理工大学、中国信通院云大所举办图像篡改检测竞赛,旨在推动学术界和产业界对该领域更多的关注,促进检测技术的进步与发展。其中,网易、字节跳动、美团分别以 AUC 0.9938 分、0.9913 分、0.9879 分荣获该竞赛的前三名,下文将对三个优秀方案展开详细解读。
网易公司:基于数据增广和模型融合的高泛化性篡改检测
该团队凭借在人脸编辑和生成方面的深厚算法和数据积淀,创新性地提出了一套以魔法打败魔法的解决方案—— DAME: Data Augmentation and Model Ensemble for Generalized Face Forgery Detection。在比赛训练数据的基础上,基于面部重演、换脸、人脸属性编辑、人脸卡通画及艺术化滤波等算法对训练数据进行增广和扩充,生成了近 40 万假图,极大地丰富了训练集的多样性,为模型的泛化性奠定强力基础。此外,团队创造性地提出了真图特征分布一致性的假设,将解题思路从 "识别已知造假特征" 转换为 "识别任意非真图的特征",并据此提出了包含多样化主干网络设计、针对性的学习率调整和采样策略等在内的低相关度模型训练和融合方案。该方案可以准确的检测出现有的各种类型的深度伪造攻击,并且在未知伪造类型的检测中取得了良好的表现。最终,该团队以 AUC 0.99386 和 0.98928 的成绩包揽了初赛和复赛两阶段的第一名。
字节跳动:多模态多分类的多元篡改检测
针对此次比赛伪造类型多、高分辨率、且存在未知伪造类型的特点,来自字节跳动的团队使用了多模态多分类的多元篡改检测方案。在基于原始 RGB 图像作为输入的基础模型之上,多模态模型使用定制的 SRM 算子(Spatial Rich Model),把滤波后的图像作为一种新模态进行训练。该算子可以弱化 RGB 的颜色信息,更加关注图像的残差特征,突出图像的噪声模式和纹理信息,能更好对篡改图像进行表征。此外,多分类模型设计了 AIM(Augmentation Inside Mask)在线伪造增强模块,在原有二分类的基础上,将 AIM 实时伪造的样本作为未知深度伪造类型的第三类进行学习。AIM 本质是一种 self-blending 的在线伪造增强方式,基于掩码将原图划分为人脸前景和背景,并仅对人脸区域进行加噪、模糊、颜色抖动等各种数据增强操作,模拟了图像篡改可能存在的色彩差异、分辨率差异、噪声模式差异以及五官位置不对应等现象。在最终方案里选取了基础模型、多分类、多模态的模型的不同训练阶段的模型进行集成。
美团:更具泛化性的图像篡改检测:模型重要,数据表征也至关重要
该团队的解决方案首先在主干选型上做了大量实验,充分考虑了主干模型的异构性和多样性,最终构建了包含 7 个主干的模型池,基础模型类型涉及 SwinTransformer、VAN、CDCNpp、Multi-Attention(MAT)和 ConvNext 5 种。除此之外,不同模型用于进行不同的数据特征表征处理,其中 SwinTransformer、VAN 和 ConvNext 关注不同尺度图像 RGB 特征,Multi-Attention 关注浅层纹理特征,CDCNpp 关注局部区域特征,各有侧重且互为补充。最终所有模型的融合权重使用 PSO 算法搜索和人工微调的方式得到。为了增强数据多样性,该团队使用了基于人脸分割掩码进行 self-blending 和 local cutting 的数据增强,来提高模型的泛化性能。值得一提的是,为了对模型泛化性能进行更合理的评测,选手还利用 FaceMorph、StarGAN、StyleGAN、FaceEdit 和 FaceSwap 等一系列深伪工具创建了一个额外的评测集,用于验证和筛选泛化性更好的模型。
蚂蚁集团数字身份负责人,资深算法专家陈弢对方案点评到:针对图像的深度伪造攻击反映了基于数据驱动的第二代 AI 在鲁棒性上的关键瑕疵。第三代可信 AI 在解决此类问题上采用数据驱动和知识驱动结合的技术方案。第一名方案引入将近 30 种伪造工具来扩展攻击数据的多样性和覆盖面,提高了防攻击的泛化能力;第二名对新型攻击方式针对性的设计伪造检测算子, 提高模型的检测能力;第三名关注了基础模型选型的多样性,精心设计了不同的训练策略。这些方案对于我们在实际业务中防控深伪攻击都很有价值。
蚂蚁集团天堑实验室负责人,资深算法专家刘焱的观点:深度伪造检测是一个攻防对抗异常激烈的领域,经济利益的驱使以及大量开源的视频伪造、修改软件的出现,促使了深度伪造技术发展迅速、变种多样。基于单一检测模型或者单一强特征的检测技术已经难以应对目前的深度伪造技术。当前的检测技术呈现了以下几个趋势:首先,使用多种伪造技术、工具和数据增强技术,生成超大型数据集;借鉴集成学习的思路,综合使用多种检测模型;不断通过挖掘真假视频在生理学上的差异,利用信息差不断形成新的强特征。
另外,从实际应用的角度,深度伪造检测技术的可解释性非常重要。除了少数出于娱乐目的的名人换脸,大量的有针对性的视频难以用肉眼分别,这就要求检测技术除了返回真假结果,还需要提供更多的辅助判断信息,比如图片、视频修改的区域,使用的技术、工具等。
关于深度伪造检测的方向和发展趋势,新加坡南洋理工大学 Ziwei Liu 教授提到,深度伪造检测未来还是会继续往大规模、泛化性的方向发展。随着新的伪造方法的出现,如果让深度伪造检测快速迁移到全新的伪造方法上,也将会是一个重要的问题。
中国信通院云大所内容科技部副主任刘硕则表示,数字时代已经来临,针对伪造数字图像和视频的检测技术愈发重要。本次 CVPR 2022 图像篡改检测竞赛激发了技术创新,成绩优异的技术方案通过使用模型集成与融合、数据增广等技术方法,并结合模型结构和训练方法等改进,很好地提升了鉴伪的泛化性和鲁棒性,这为真实场景中的技术落地应用提供有益参考。在未来,围绕着伪造与鉴别的 “攻防” 将持续存在,除了需要从技术上不断创新,还需要联合 “政产学研用” 等多方力量,共同探索针对伪造内容的治理实践范式。
计算机视觉技术是蚂蚁集团多年来深耕的一个研究方向,已在蚂蚁集团的数字生活、数字金融、安全科技等业务中广泛应用,持续服务用户和行业伙伴。此次蚂蚁携手计算机视觉顶会,联合高校和产业机构举办「面向真实场景」的双竞赛,通过产学研联动,共同推动计算机识别技术的进步。
如果想更深入了解比赛详情和获奖方案的解读,可观看 6 月 18 日晚上 19:30 于机器之心机动组视频号的直播 CVPR 22 17th IEEE Computer Society Workshop on Biometrics 蚂蚁双赛道比赛总结,欢迎来看!