ICML 2023 | 你的AI被黑客攻击了吗?如何用期望扰动分数揭秘对抗数据?
对抗攻击(Adversarial Attack)旨在通过向样本中加入难以察觉的扰动来误导模型的预测结果,其产生的对抗样本(Adverasarial Samples)会对已经广泛部署的机器学习模型系统造成威胁,急需高性能的对抗防御方法来保障神经网络模型的安全性和鲁棒性。
现有的对抗样本处理策略主要分为对抗训练(Adversarial Training)、对抗净化(Adversarial Purification)和对抗检测(Adversarial Detection)。
对抗训练方法将对抗样本引入到训练过程中,从而提升模型的鲁棒性,然而可能面临性能退化问题和极高的计算复杂度;
对抗净化方法利用生成模型来净化对抗样本,再将净化后的样本输入到分类模型中,但是需要在自然和对抗精度(Natural and Adversarial Accuracy)间做出妥协,性能难以令人满意;
对抗检测方法则是根据分布差异来检测对抗样本,并拒绝为对抗样本做出预测,这类方法可以在几乎不损失自然精度的前提下确保安全的输入源,对现有模型体系十分友好。
然而,现有对抗检测方法大多仅针对某些特殊攻击方法,或仅用于某些特定分类模型,忽视了对自然样本和对抗样本空间分布的建模,难以应对不可见攻击(Unseen Attacks)或可转移的攻击(Transferable Attacks)。
此外,在高维空间中直接估计和比较两个数据分布十分困难,一般通过估计样本的对数概率密度梯度(a.k.a Score)来代替。该统计量在对抗防御和扩散模型领域已经成为一个强大的工具。然而,如何有效利用score进行对抗检测仍是一个未解决的难题。
本文介绍我们发表于ICML 2023的文章《Detecting Adversarial Data by Probing Multiple Perturbations Using Expected Perturbation Score》。文章中提出了基于期望扰动分数(Expected Perturbation Score, EPS)的对抗检测方法EPS-AD。在此基础上,我们从理论上验证了自然样本与对抗样本间的分布差异,并在CIFAR-10、ImageNet数据集上取得了一致性的优异性能。
论文链接: https://arxiv.org/abs/2305.16035 代码链接: https://github.com/ZSHsh98/EPS-AD.git
一、Motivations
三、实验验证
四、总结与未来工作
作者:张书海
Illustration by IconScout Store from IconScout
-The End-扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
>>> 添加小编微信!
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com
点击右上角,把文章分享到朋友圈点击“阅读原文”按钮,查看社区原文⤵一键送你进入TechBeat快乐星球