最新好文 | 基于因果推断的可解释对抗防御
Machine Intelligence Research
基于深度学习的模型容易受到对抗性攻击。在敏感和安全关键场景中,防御对抗攻击至关重要。然而,深度学习方法仍然缺乏有效的对抗攻击防御机制。现有的大多数方法只是针对特定对抗性样本使出的权宜之计。中科院自动化所研究团队采用因果推理来探索对抗性样本的工作机制,并建立了一个因果模型来描述对抗性样本的产生和表现。相关成果发表于MIR第三期中。
图片来自Springer
深度学习方法开启了人工智能的新时代。在计算机视觉领域,深度学习方法在图像分类、目标检测、以及图像分割等领域取得了巨大成功。深度神经网络展示了从原始数据到高级特征进行非线性映射的强大能力。然而,对抗性样本却给深度学习的巨大成功蒙上了一层阴影。“强大”的深度学习模块容易受到各种对抗性攻击算法的攻击。攻击者可以使用精心设计的扰动破坏最先进模型的预测,但人类却无法发现这种扰动。这一问题使得深度方法在敏感和安全关键场景中的应用受阻。因此,对抗性攻击的防御备受关注,而且已经成为一个重要的研究课题。
此前已经有很多关于对抗性攻击防御的研究。然而,目前尚不清楚对抗性样本如何破坏深度学习模型。对抗性样本的潜在工作机制值得进一步探索和研究。因此,大多数现有方法只是针对特定对抗性样本使出的权宜之计。例如,对抗性训练,将对抗性样本引入训练过程,作为一种防御方法,受到广泛关注。然而,基于对抗训练的方法的泛化能力却非常有限,尤其是对于不可见的攻击,这一局限更加明显。
为抵御对抗性攻击,就有必要揭示对抗性样本的工作机制。中科院自动化所研究团队采用因果推理来探索对抗性样本的工作机制。与基于统计学的方法相比,因果推理可以更自然地从本质上模拟变量之间的关系。
文章建立了一个因果模型来描述对抗性样本的产生和表现。因果模型使我们能够估计深层神经网络输出与对抗性样本子区域之间的因果效应,而这是数据驱动/统计方法所无法实现的。因此,被篡改的预测可归因于子区域,这意味着其中存在着解释对抗性样本并揭示其工作机制的可能性。
文章的主要贡献如下:
1)文章建立了一个因果模型来解释对抗性样本的产生和表现。因果模型使我们能够估计深层神经网络输出与输入样本子区域之间的因果关系。
2)基于因果推理,文章揭示了对抗性样本的工作机制。对抗性样本不同子区域的因果效应可能不一致,甚至相反。通常,只有一小部分对抗样本在欺骗识别模型方面起着决定性的作用。
3)根据这些发现,文章提出了简单有效的防御对抗性攻击的策略。这些策略使我们能够检测和识别对抗样本,而无需额外的模型或训练。
Towards Interpretable Defense Against Adversarial Attacks via Causal Inference
Min Ren, Yun-Long Wang, Zhao-Feng He
https://www.mi-research.net/en/article/doi/10.1007/s11633-022-1330-7
https://link.springer.com/article/10.1007/s11633-022-1330-7
【本文作者】
任民
中科院自动化所
王云龙
中科院自动化所
何召锋
北京邮电大学
关于Machine Intelligence Research
Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。
AI最前沿 | 聚焦知识挖掘、5G、强化学习等领域;来自联想研究院、中科院自动化所等团队中科院自动化所何晖光团队 | 一种基于RGEC的新型网络
联想CTO芮勇团队 | 知识挖掘:跨领域的综述
主编谭铁牛院士寄语, MIR第一期正式出版!华南理工詹志辉团队 | 综述: 面向昂贵优化的进化计算
北科大殷绪成团队 | 弱相关知识集成的小样本图像分类
东南大学张敏灵团队 | 基于选择性特征增广的多维分类方法
点击"阅读原文"免费下载第三期好文