论文推荐丨[CVPR2020]眼见为虚:利用对抗文本图像攻击场景文本识别模型
本文简要介绍CVPR2020录用论文“What Machines See Is Not What They Get: Fooling Scene Text Recognition Models with Adversarial Text Images”的主要工作。该论文针对目前主流的场景文字识别(STR)模型,提出了一种高效的基于优化的对抗攻击方法。这是对抗攻击在场景文本识别模型中的首次尝试和研究。实验证明,该方法在7个真实数据和2个生成数据上大大降低了STR模型的识别性能,并成功攻击了百度OCR的识别引擎。
STR模型的对抗攻击目标可以定义为找到一个与普通样本非常相似(人眼几乎不能发现差异)但识别结果却差异很大的样本。因此该文章假定输入的场景文本图片为x,相应的Ground-truth为l={l0, l1,…, lT},T为序列的长度。目标是找到对抗样本x’=x+δ(δ为对抗扰动)来欺骗STR模型,使得其预测出错误的序列l’。其对应的优化问题可以被描述为:
根据解码器(CTC-based解码器和Attention-based解码器)以及攻击方式(有目标攻击和非目标攻击)的组合,该方法有四种不同的形式。
训练CTC-based识别模型 [4-6] 需要考虑所有有效对齐路径(π∈S(l))到ground-truth(l)的概率,对应的损失函数为:
a) 有目标攻击
所以,最终的目标函数为:
b) 非目标攻击
非目标攻击只要求模型预测出不为l的序列,因此只要使有效路径到l概率最小即可:
2) 攻击Attention-based STR模型
Attention-based STR模型 [7, 8] 会根据t时刻之前(1, 2,…,t-1)的输出,预测出t时刻的输出,对应的损失函数为:
a) 有目标攻击
首先,假设只改变目标序列中的一个字符(lt’),对应的损失函数为
将这个应用到一般情况,改变目标序列中k个字符,则l’可以分为k+1个部分,即1个没有改变的字符组和k个改变的字符。因为上列公式中第一项是常数项,所以损失函数可以改写为:
攻击方法的最终目标函数为:
当l中任意位置上的预测字符获得比较低的概率时,该字符就会受到攻击,模型会输出和l不同的序列l’:
所以,最终的目标函数为:
通过求解上述四个目标函数,可以得到相应的攻击样本,具体的流程如下图所示:
作者对五个STR模型进行了有目标攻击和非目标攻击,并在7个真实数据集和2个生成数据集上做了测试,结果如下:
从表格中可以得出,目前主流的几个STR模型是非常脆弱的,几乎无法正确识别对抗样本,该攻击方法的成功率(SR)接近100%。除此之外,该方法还在真实系统百度OCR上进行了评估。在真实数据上选取800张图片,并用CRNN [4] 和TRBA [8] 的模型产生对抗样本,然后让百度OCR进行识别。识别结果如下:
不管是有目标攻击还是非目标攻击,成功率都在20%以上,由此证明了该攻击方法对百度OCR模型的有效性。
本文首次提出了一种通用有效的STR攻击方法,并在目前主流的CTC-based和Attention-based STR模型中得到了验证。作者在7个真实数据、2个生成数据和真实STR系统上对该方法进行测试。结果显示,该攻击方法几乎完全欺骗了5个SOTA的STR模型,同时在商业STR系统上也显示出较高的攻击性能。
[1] Chaowei Xiao, Dawei Yang, Bo Li, Jia Deng, and Mingyan Liu. Meshadv: Adversarial meshes for visual recognition. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR, pages 6898–6907, 2019.
[2] Cihang Xie, Jianyu Wang, Zhishuai Zhang, Yuyin Zhou, Lingxi Xie, and Alan L. Yuille. Adversarial examples for semantic segmentation and object detection. In IEEE International Conference on Computer Vision, ICCV, pages 1378–1387, 2017.
[3] Xiaoyong Yuan, Pan He, and Xiaolin Andy Li. Adaptive adversarial attack on scene text recognition. CoRR, abs/1807.03326, 2018.
[4] Baoguang Shi, Xiang Bai, and Cong Yao. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Trans. Pattern Anal. Mach. Intell., 39(11):2298–2304, 2017.
[5] Fedor Borisyuk, Albert Gordo, and Viswanath Sivakumar. Rosetta: Large scale system for text detection and recognition in images. In ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD, pages 71–79, 2018.
[6] Wei Liu, Chaofeng Chen, Kwan-Yee K.Wong, Zhizhong Su, and Junyu Han. Star-net: A spatial attention residue network for scene text recognition. In British Machine Vision Conference, BMVC, 2016.
[7] Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. Robust scene text recognition with automatic rectification. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR, pages 4168–4176, 2016.
[8] Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis. In IEEE International Conference on Computer Vision, pages 652–661, 2019.
编排:高 学
审校:殷 飞
发布:金连文
论文推荐|[TIP2020]基于深度特征相似性融合的少样本文符风格迁移 论文推荐| [CVPR 2020]ContourNet:更准确的任意形状场景文本检测新方法 论文推荐|[IEEE TIFS2020]编码Pathlet与SIFT特征的古籍笔迹鉴别(ICDAR19古籍笔迹识别竞赛冠军方法) 论文推荐|[IEEE CVPR 2020] SEED:用于场景文本识别的语义增强编解码器框架 论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络(附代码) 论文推荐|[AAAI 2020]文本感知器:面向端到端任意形状的文本识别 论文推荐|[AAAI 2020]FET-GAN:通过K-shot自适应实例规范化进行字体和效果转移(有源码) 论文推荐|[AAAI 2020] TextScanner:依序阅读分类的鲁棒场景文本识别 论文回顾|[ICDAR 2019]DeepSignDB:大规模联机签名数据集 论文推荐|[CVPR 2020]UnrealText:基于虚拟场景的真实场景文本图像合成
欢迎加入中国图象图形学学会!(附入会攻略)
(扫描识别如上二维码加关注)