©PaperWeekly 原创 · 作者 | 鬼谷子
研究方向 | GAN图像生成、情绪对抗样本生成
对抗样本对深度学习模型产生对抗行为的内部机理一直是一个研究热点,只有更好的理解其运作机理才能更好的对对抗攻击产生更有效的防御策略。最近几年有研究者通过利用数理统计中 Fisher 信息量的这一个数学工具去挖掘深度学习模型对抗行为的深层原因,并基于此提出了相应防御方法。本文主要是总结归纳最近几年 Fisher 信息量在对抗样本研究中的应用,并从中选出了三篇相关代表作进行解析。
Fisher 信息是一种测量可观测随机变量 携带的未知参数 的信息量的方法,其中 的概率依赖于参数 。令 是一个参数为 的随机变量 的概率密度函数。如果 随着 的变化出现陡峭的峰谷,则说明从数据中得到了 正确的值,换句话说数据 提供了关于参数 很多的信息。如果 随着 的变化是比较平缓的,则需要对 进行更多的采样进而估计参数 。形式上,关于似然函数自然对数 的偏导数称为分数,即为 。在某些规则性条件下,如果 是真参数(即为 实际分布 ,则在真参数值 处评估的分数的期望值为 0,具体推导如下所示:
Fisher 信息量则被定义为分数 的方差,具体公式如下所示:
由上公式可以发现 。携带高 Fisher 信息的随机变量意味着分数的绝对值通常很高。Fisher 信息不是特定观测值的函数,因为随机变量 已被平均化。如果 关于 是二次可微的,则此时 Fisher 信息量可以写为如下公式:
综合以上两公式可以推导出 Fisher 信息量的新形式,证毕。Cramer-Rao 界指出,Fisher 信息量的逆是 的任何无偏估计量方差的下界。考虑一个 的无偏估计 ,无偏估计的数学形式可以表示为:
因为这个表达式与 无关,所以它对 的偏导数也必须为 。根据乘积法则,这个偏导数也等于:
对于每个 ,似然函数是一个概率密度函数,因此 ,进而则有:
将积分中的表达式进行平方,再根据 Cauchy–Schwarz 不等式可得:
其中第二个括号内的因子被定义为 Fisher 信息量,而第一个括号内的因子是估计量 的期望均方误差,进而则有:
由上公式可以发现估计 的精度基本上受到似然函数的 Fisher 信息量的限制。给定一个 的参数向量 ,此时 Fisher 信息量可以表示为一个 的矩阵。这个矩阵被称为 Fisher 信息矩阵,具体形式如下所示:
Fisher 信息矩阵是一个 的半正定矩阵。在某些正则条件下,Fisher 信息矩阵又可以写成如下形式:
在该论文中,作者从理论分析的角度研究了 Fisher 信息量在检测对抗攻击时的可用性,另外作者讨论了与网络大小成正比的变量有哪些,并研究了它们在对抗样本中的行为是怎样的,展示了它们如何突出单输入神经元的重要性,从而为进一步分析神经网络的不合理行为提供了可视化工具。
论文链接:
https://www.sciencedirect.com/science/article/abs/pii/S0925231219316546
3.1 论文方法
数据集 是从 维参数向量 的分布 采样而来的,则此时 的 Fisher 信息量如下所示:
在该论文中作者为了简化,论文中对数似然函数估计都是足够平滑的。Fisher 信息矩阵主要测量的是对数似然估计 的平均局部曲率。考虑一个小的 在 维向量 方向上的扰动即 ,则在 散度的泰勒展开式为:
可以被看作在参数 有多少信息量可以被获得,如果 数值高意味着参数并没有很好的拟合好数据样本
,所以可以用 用于测量不正常的样本,比如对抗样本。矩阵 的维度是 ,但是要计算这个矩阵 的计算量非常大。在机器学习中,经常是需要从数据中学习一个输入到输出的参数化映射 ,其中 包含所有的权重和偏置的参数。假定输入样本为 ,对应的输出为 ,训练中一个批次的大小为 ,机器学习的目的是找到一个 ,使得 ,其中 是一个 维的向量,并且可以写成 ,此时关于 的 Fisher 信息矩阵可以表示为:
但是需要清楚的是,即使是一个非常小的神经网络计算参数的 Fisher 信息矩阵 也是非常棘手的。因为该论文的关注点只是 Fisher 信息矩阵的最大特征值,所以可以利用矩阵的迹来进行代替,具体公式如下所示:
由此可以发现使用反向传播算法的计算量为 ,所以计算量大大减小,随着神经网络规模的增加计算量呈线性增长。
以上公式可以看成一个二分类问题,即属于类别 或者不属于类别 ,正则化之后可以得到
其中 ,以上目标函数是用于测量在点 的统计流形曲率,现实中关于 的梯度只出现在某个方向导数里,近似的计算公式为:
其中 是一个非常小的数值。为了能够获得更多定量信息,作者引入了一个单变量的随机变量 ,进而则有以下公式:
其中 ,向量 跟 有相同的维度,此时关于 的 Fisher 信息量的计算公式可以表示为:
为了简化计算量,作者在这里采用了一个非常简单直观的方法,对于每一个 ,取 ,进而则有如下计算公式:
对于每个 都可以获得一个 ,作者称该向量为 Fisher 信息敏感度,它反映了输入中第 个分量的重要程度,该方法通过一步后向传递就可以进行有效的计算。
在该论文中,作者提出了一种通过抑制 Fisher 信息矩阵的最大特征值来防御对抗性攻击的方案。通过理论分析可以发现 Fisher 信息矩阵的特征值较大,即使输入差异较小,输出差异也会变大,这就解释了对抗样本存在的原因。通过控制 Fisher 信息矩阵的特征值,这使得对抗防御成为可能,论文中作者由于求 Fisher 信息矩阵最大特征值的计算成本很高,其解决方案是在原始网络的损失函数中添加一个表示 Fisher 信息矩阵迹的项,因为最大特征值由矩阵的轨所限定。实验结果验证了本论文方法的有效性。
论文链接:
https://arxiv.org/abs/1909.06137
给定一张 的灰度图,分类器可以将其分为 类中的某一类别。假定将图片从一个矩阵拉成一个长度为 的向量 ,则扰动图片 。干净图片和扰动图片经过深度神经网络分类,最后一层的 层的输出分别为和 ,其中对于 , 且 。令样本 属于第 类的概率位 ,其中 是一个 向量,则有 且 ,一般情况下, 和 的距离通过利用 散度去测量,具体公式如下所示:
其中 是 的 Fisher 信息矩阵。 散度的数值变大的时候,Fisher 信息矩阵的最大特征值 也会随着变大。所以,对抗攻击的现象会出现在 数值较大的时候,对抗攻击方法 OSSA 就是利用 Fisher 信息矩阵最大特征值构造而来,具体的公式如下所示:
其中 表示的是平方范数的扰动上界, 是损失函数。构造对抗样本的问题可以转化为找到 Fisher 信息矩阵最大特征值 和对应的特征向量 的问题,即 。
当 取到最小值时的解为 ,这就意味着正则化项 迫使 向中心点 ,不会向点移动,所以一个很自然的担心是这样会导致深度神经网络的分类准确率下降,在该论文中,作者表明不会出现这种状况。最小化 确实会使得 向点 移动,但是损失函数的中的第一项会使得中心点不能被到达。移向中心点趋势并不是有害的,作者真正关心的是正确的类别 ,而不是 的取值,所以,作者不会追求更大的 值,而且使得 在所有的类别 概率值 中值最大。以上的情况说明了一个事实,一个样本分类的高置信度的结果有时候是不可靠的,原因在于类 的高置信度意味着概率 数值是大的,其它类别 的概率值 的数值是小的。一种极端的情况是当 时,则有 。总之,高置信度样本对对抗扰动是非常敏感的,因此该样本面对对抗攻击也是非常脆弱的。 论文中的方法和 都是会将份分类标签平滑化,并且正确标签依然是有最高的概率。标准的 一般分为两步,首先是对于给定的类别 ,将 标签修改为:
其中 是超参数, 是一个标签分量,其中正确的类别分量对应的数值是 1,其它的分量对应的数值为 0;然后用新的标签分量去训练这个网络。 方法可以使得一类的数据更加紧凑,这样可以更有效的抵御对抗攻击,但是该方法的问题在于需要格外有一个先验假设即标签是均匀分布的。本文论文的方法是基于严格的数学推导,不需要这样的假设条件,因此对比可知,该论文的方法有一个更好的解释性。
在该论文中,作者主要对对抗扰动可以攻击深度学习模型的对抗行为进行研究,旨在揭示深度学习模型的泛化性能与对抗行为之间的关系。作者在论文中提出了一个基于 Fisher 信息量的度量方式,该指标在信息论上可以将深度学习的损失函数分为的非鲁棒性(负责对抗行为)和鲁棒性的两个成分。实验结果表明,当前的深度学习模型在很大程度上依赖于优化非鲁棒性件成分来实现较好的分类性能。
https://arxiv.org/abs/1906.02494v1
5.1 论文方法
在之前的研究中,在测试集上预测准确率往往用于去评估深度学习模型的性能。然而,这种评估方式会隐藏模型性能和对抗行为之间的关系。在该论文中,为了建立更透明的关系和更好理解模型的对抗行为,作者提出了采用任何不同类别的数据对的平均 散度作为分类性能的度量。令 表示的是输入的图片, 是对应的 标签分布, 是分类器模型, 是模型的输出分布。 是不同类别的数据对的数目。 是 和 的 散度,论文作者提出的交叉熵 散度的公式如下所示:
由 不等式可知,从三角不等式中导出以下下界,可以用于描述交叉熵损失函数与论文中提出的目标之间的关系:
其中 表示的是 和 的 散度。 能够更有效地表征模型训练过程中的行为,当训练损失 下降的时候, 的下界会增大。从另一个视角可知,当给网络随机初始化的时候,深度神经网络 没有任何正确分类样本的知识。因此,它不能够区分开输入样本 , 以它们的输出概率。此时,在训练的早期阶段, 是相对较小的;随着训练的进行,更多的标签依赖信息被整合到模型 中,神经网络的泛化能力也随之加强,并且在测试集上的输出分布 会越来越接近真实的标签分布 ;在训练的末期阶段,模型损失 将会下降到一个相对小的数值,此时 将会足够接近 )。本文提出的度量方法可以更好的显示模型是如果能将不同类别的数据区分开来。如下公式所示为对抗训练的目标函:
随着训练的进行,参数 会接近最优,输出分布 能够接近真实标签 。在这种情况下 散度是关于第一个变量连续的,所以则有如下公式:
以上观察可以从分布的视角下去研究模型的对抗行为。为了更好的了解对抗行为和 度量之间的联系,作者定义了以下对抗度量的公式:
相应对抗训练的目标函数如下所示:
给定 ,其泰勒展开是可以表示:
其中 是 关于 的 Fisher 信息量, 是 的第 项, 是 的元素数,其中 的具体计算公式如下所示:
其中 是足够的小,更高阶的项的是接近于 ,以上公式可以简化为:
通过设定 ,可以得到 ,其中 是矩阵 的最大特征值。因此,则有:
需要注意的是 是 Fisher 信息矩阵 的谱范数。以上的推导展示了模型在输入样本 附近的对抗行为由 Fisher 信息矩阵所决定,如果 的谱范数越大,则 附近的对抗行为越严重。给定两个数据标签对 和 ,并且 ,可以将 重新整理为:
由此可知在每一个数据点的对抗行为与目标损失函数 的分数与在每个点的 Fisher 信息量有关。上文提出的对抗训练限制了一个深度神经网络模型的输入输出 Fisher 信息量,这种限制是一个好的深度模型的标准。由 Cramer-Rao 界可知:
如果尝试使用输出概率 到统计数据 来重建输入 ,则方差 的不确定性由 Fisher 信息 的倒数限定。对于深度神经网络,当它使用正确的标签对图像进行分类时,标签没有任何关于环境的信息(例如,狗是什么颜色、狗在哪里、对抗干扰等)。这意味着,对于一个好的深度神经网络模型,从输出分布 导出的任何统计量 的方差 都相对较大。鉴于 Cramer-Rao 界,这意味着深度神经网络的 Fisher 信息量是一个相对较小的值。令 表示为 ,表示为 。因此, 可以公式化为:
由上公式可以发现,当 和 增大时,都会使得 的值变大。 是 诱导的二阶多项式, 是两个输入 和 之间固定的距离, 增大将会导致 的范数增大。所以可知,如果一个模型严重依赖 的变大来提升性能,则会 的范数也会随之增大。又由以上的结论可知, 的范数越大,在 点附近的对抗行为越严重,因为可知对抗行为和模型的分类性能是有一种内在冲突的。 项可以提升分类性能但是却不会引起对抗行为。所以,以上目标函数成功地将非鲁棒元素和鲁棒元素分解开来。
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧