查看原文
其他

专家谈术语 | 模型提取/窃取

The following article is from 中国计算机学会 Author 陈恺、赵月



本期发布术语热词:模型提取/窃取(Model Extraction/ Stealing)



模型提取/窃取

(Model Extraction/ Stealing)

作者:陈恺、赵月(中国科学院信息工程研究所)




InfoBox:

中文名:模型提取/窃取

英文名:Model Extraction/ Stealing

学科:网络空间安全

实质:针对目标模型全部或者部分信息(例如模型参数、结构信息、功能等)的窃取行为



基本定义:

对于一个给定的黑盒模型,攻击者无法获取其模型结构、参数等信息,但可以通过输入样本查询该模型并获得相应的输出结果。模型窃取的基本含义是,攻击者以该黑盒模型为目标,通过多次查询,获取目标模型全部或者部分信息(如模型参数、结构信息、功能等)。典型地,攻击者可以通过模型窃取攻击构建一个与目标模型功能非常接近的替代模型(Substitute Model),进而利用替代模型提供服务并获得收益。此外,攻击者还可以窃取目标模型的部分信息(如决策边界信息),用于构造对抗样本攻击目标模型。模型窃取攻击对于“机器学习即服务(MLaaS)”场景下的模型应用构成安全威胁。


背景与动机:

随着人工智能技术的不断发展,越来越多人工智能模型被部署在云端,并通过API接口向用户提供服务。这些模型本身是一种数字资产,其训练需要大量成本,包括数据成本、人力成本和算力成本等。然而,模型窃取攻击却允许攻击者以较低的成本获得功能接近的替代模型。如果攻击者只窃取目标模型的部分功能,那么他们所需的成本将更低。


研究概况:

•模型窃取攻击

模型窃取攻击的重要目标是构建一个与被攻击模型的全部或部分功能相似的替代模型[1]。无论目标模型是小模型[2]还是大模型[3],都存在被窃取的风险。即使在缺乏目标模型相关信息或数据分布的情况下,攻击者仍有可能完成模型窃取攻击[4-6]。在攻击过程中,攻击者通常会考虑如何降低攻击成本,例如通过较少的查询次数[7]来获得功能接近的替代模型。


•模型窃取防御

模型窃取防御的目标是研究如何减轻窃取攻击带来的风险。模型窃取通常依赖于攻击者对目标模型进行大量查询,因此可以通过检测这些查询来进行防御。例如,在窃取目标模型的决策边界时,攻击者使用的输入样本分布通常与正常用户查询的样本分布不同。利用这种分布差异,我们有可能检测出模型窃取攻击[8]。部分研究通过改变模型的输出结果来干扰攻击者,例如隐藏分类概率值,或者在不改变最终分类标签的情况下对输出概率添加噪声等。然而,这类方法可能会对正常用户的请求造成影响[9]。


未来展望:

尽管已经有很多模型窃取相关研究,但仍然有一些问题需要解决。在攻击方面,需要探索如何以更小的成本获取更准确的信息,以实现更低成本的模型窃取。在防御方面,需要设计有效的、对用户影响小的防御方法来检测模型窃取行为。研究神经网络模型窃取对于确保人工智能的安全发展具有重要的现实意义。


参考文献

[1]Tramèr F, Zhang F, Juels A, et al. Stealing machine learning models via prediction APIs[C]//In 25th USENIX Security Symposium (USENIX Security 16). 2016, 16: 601-618.[2]Milli S, Schmidt L, Dragan A D, et al. Model reconstruction from model explanations[C]//Proceedings of the Conference on Fairness, Accountability, and Transparency. 2019: 1-9.[3]Krishna K, Tomar G S, Parikh A P, et al. Thieves on sesame street! model extraction of bert-based apis[J]. arXiv preprint arXiv:1910.12366, 2019.[4]Orekondy T, Schiele B, Fritz M. Knockoff nets: Stealing functionality of black-box models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (CVPR). 2019: 4954-4963.[5]Correia-Silva J R, Berriel R F, Badue C, et al. Copycat cnn: Stealing knowledge by persuading confession with random non-labeled data[C]//2018 International Joint Conference on Neural Networks (IJCNN). IEEE, 2018: 1-8.[6]Jagielski M, Carlini N, Berthelot D, et al. High accuracy and high fidelity extraction of neural networks[C]//In 29th USENIX Security Symposium (USENIX Security 20).2020: 1345-1362.[7] Yingzhe He, Guozhu Meng, Kai Chen, Xingbo Hu, Jinwen He. DRMI: A dataset reduction technology based on mutual information for black-box attacks[C]// In 30th USENIX Security Symposium (USENIX Security 21).2021:1901-1918.[8]Juuti M, Szyller S, Marchal S, et al. PRADA: Protecting against DNN model stealing attacks[C]//2019 IEEE European Symposium on Security and Privacy (EuroS&P). IEEE, 2019: 512-527.[9] Mazeika, Mantas and Li, Bo and Forsyth, David. How to steer your adversary: Targeted and efficient model stealing defenses with gradient pedirection[C]// Proceedings of the 39th International Conference on Machine Learning (ICML). 2022:15241-15254.


陈恺 研究员

邮箱:chenkai@iie.ac.cn

研究领域:软件与系统安全,人工智能安全


赵月 助理研究员

邮箱:zhaoyue@iie.ac.cn

研究领域:研究方向为人工智能安全,具体包括神经网络对抗、后门检测与模型修复等。


计算机术语审定委员会及术语平台介绍:

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。


计算机术语审定工作委员会:

主任(代理):

李国良(清华大学)

副主任:

王昊奋(同济大学)

主任助理:

李一斌(上海海乂知信息科技有限公司)

执行委员:

丁   军(上海海乂知信息科技有限公司)

林俊宇(中国科学院信息工程研究所)

兰艳艳(清华大学)

张伟男(哈尔滨工业大学)

委员:

柴成亮(北京理工大学)

彭   鑫(复旦大学)

李博涵(南京航空航天大学)

李   超(上海交通大学)

李晨亮(武汉大学)

杨   敏(中国科学院深圳先进技术研究院)

张   鹏(天津大学)

王昌栋(中山大学)

张宁豫(浙江大学)

孔祥杰(浙江工业大学)

魏   巍(华中科技大学)


术语投稿热线:ccfpedia@ccf.org.cn






点击“阅读原文”,加入CCF。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存