【源头活水】Transformer 的稳健性更好吗？

人工智能前沿讲习 2022-05-21

收录于合集 #源头活水 308个

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

来源：知乎—Greene

地址：https://zhuanlan.zhihu.com/p/361105702

最近 Transformer 在计算机视觉遍地开花，从纯 Transformer 到 Transformer 和 CNN 的显式隐式杂交，各个任务仿佛嗷嗷待哺的婴儿，等着 Transformer 奶一口，这自然让人好奇 Transformer 的稳健性（Robustness）如何。

然而，Transformer 训练起来算力要求大，对抗训练加 Transformer 训练起来算力要求就是大上加大，好在我们不用亲自花费精力去实验，或者实验到一半的你也可以先休息一下，因为在 arXiv 上已经出现了研究 Transformer 的稳健性的论文。

第一篇映入眼帘的便是 2021年3月26日公开的 Transformer 的老家谷歌做的这篇：

Srinadh Bhojanapalli, Ayan Chakrabarti, Daniel Glasner, Daliang Li, Thomas Unterthiner, Andreas Veit. Understanding Robustness of Transformers for Image Classification. arXiv:2103.14586

首先，Transformer 也存在对抗样本（Adversarial Example），这依然是一个问题，不过，针对 Transformer 的对抗扰动和针对 CNN 的对抗扰动看起来确实不太一样：

说明 Transformer 和 CNN 摔跤的地方不太一样。Transformer 的对抗扰动有明显的块（Patch）间差异，看起来似乎是每一块单独生成的对抗样本拼接而成的。他们使用 PGD 和 FGSM 测得的稳健性如下：

原文中对威胁模型（Threat Model）的描述是 one gray level，应该对应。可以看到，Transformer 相对 CNN 并没有显著地更加稳健（Robust），在 FGSM 下的稳健性和应对输入变换（旋转、平移）的稳健性都不如 CNN；在 PGD 攻击下的稳健性比 CNN 要好一些，个人猜测有可能是因为 Transformer 让 PGD 更难优化。

老实说，这个结果让人有点失望，本来以为 Transformer 有从根本上杜绝对抗攻击的可能，但这些结果表明，并没有 o(╥﹏╥)o

不过令人欣慰的是，对抗样本在 Transformer 和 CNN 之间的迁移性不好:

这看起来似乎佐证了 Transformer 和 CNN 确实跌倒在不同的地方[1]。这篇文章处处透露着谷歌的豪气，只能说，不愧是谷歌。

就在这篇文章出现的三天后，arXiv上便再次出现了一篇研究 Transformer 的稳健性的论文：

Rulin Shao, Zhouxing Shi, Jinfeng Yi, Pin-Yu Chen, Cho-Jui Hsieh. On the Adversarial Robustness of Visual Transformers. arXiv:2103.15670

这篇论文最吸引人的地方是开篇的第一幅图：

这个 Transformer 看起来非常稳健啊，难道谷歌这次翻车了？按照这张图，Transformer 的稳健性似乎直接达到了对抗训练之后的CNN基准[2]，而且他的结论是越加 CNN，就越不稳健......

然而看到后面却发现，好像结论跟谷歌没差，他们给出的PGD 攻击的结果如下：

在同样的威胁模型下，ViT-B/16 的稳健精确度为 11.05% ~ 4.54%，与谷歌那篇论文的结论基本一致。图 1 目测绘制的是威胁模型为的结果，这个威胁模型比一个灰度阶梯（1/255）还小，实际意义有限[3]。

他们做了更加完善的迁移攻击的研究，结果如下：

颜色更深表示迁移性更强，对角线是自己跟自己的迁移攻击成功率，可以看到，结论与谷歌那篇中一致，对抗样本在 Transformer 与 CNN 之间的迁移性较低。

难能可贵的是，最耗时间的对抗训练他们也帮我们做了，这里使用的威胁模型是常见的：

需要注意的是，每个模型只训练了 20 个周期（Epoch），一般的对抗训练会进行100个周期（Epoch）以上[4]。根据这个结果，Transformer 在对抗训练后的效果似乎比 CNN 要好，两个精确度都要高一些。

对比 ResNet-18 和 ViT-B/4 使用 TRADES 对抗训练得到的结果，ViT-B/4 的标准精确度（Clean）要高 7.4%，稳健精确度（AutoAttack）要高 4.3%；鉴于只训练了20个周期，这个更好的效果有可能是因为 Transformer 在对抗训练的前期比 CNN 收敛得更快。

Transformer 是比 CNN 更稳健呢？还是稳健性跟 CNN 差不多呢？两篇论文，诸君自取。不过可以确定的是，Transformer 跟 CNN 跌倒的方式不同，他们确实学习到了很不一样的特征，而不一样的特征能得到相似的效果，不难理解为何关于 Transformer 的论文这么多了。

PS：Transformer 有没有合适的翻译额，中英混杂看起来很累，翻译成变压器或者变形金刚似乎不太好。

参考

1. 不过这里测试迁移性使用的是 PGD 攻击，之前已经有研究表明，就迁移性而言，使用 FGSM 这种单次攻击得到的对抗样本要更好一些

2. Robust Bench https://robustbench.github.io/

3. 因为保存成图片这个级别的扰动基本就没有用了

4. Tianyu Pang, Xiao Yang, Yinpeng Dong, Hang Su, Jun Zhu. Bag of Tricks for Adversarial Training. arXiv preprint 2020. arXiv:2010.00467

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“源头活水”历史文章

请点击文章底部“阅读原文”查看

分享、在看，给个三连击呗！

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

中共中央批准：作出对高朋逮捕决定

不仅要看已抓谁，还须一直抓到没

【源头活水】Transformer 的稳健性更好吗？

读SfM-Net: Learning of Structure and Motion from Video

Conditional DETR: 通过显式寻找物体的 extremity 区域加快 DETR 的收敛

谷歌和CMU论文：使用元学习生成伪标签

Deep GNN评测，模型退化是做不深的主要原因！

CVPR2021：Spatial在左，Temporal在右，如何缓解视频动作理解中的隐式偏见之殇？

CVPR2021自监督学习论文: 理解对比损失的性质以及温度系数的作用

GAN，没错，生成对抗网络也可以被用于时间序列预测

开放世界实体分割 Open-World Entity Segmentation

ICCV‘21 | 具有样本特定触发器的隐形后门攻击

ACL2021: 对比学习还能这样用？提升多语言机器翻译性能

CVPR 2021 | AdCo-基于对抗的对比学习（已开源）

最前沿：深度解读Soft Actor-Critic 算法

RL Transformer之Trajectory Transformers

差分卷积在计算机视觉中的应用

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

中共中央批准：作出对高朋逮捕决定

不仅要看已抓谁，还须一直抓到没

生成图片，分享到微信朋友圈

【源头活水】Transformer 的稳健性更好吗？

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣