蚂蚁安全实验室DiffUTE中稿全球人工智能顶会NeurIPS2023
蚂蚁集团的业务时刻面临着新的黑产攻击方式,新的攻击方式往往具有样本稀疏的特性。而现有风险识别模型需要大量数据来学习攻击的特征和模式。为了使模型能够快速覆盖新的风险,蚂蚁安全实验室在安全AIGC方向广泛布局,构建了安全域AIGC图像生成底座:一方面,借助AIGC的能力来评测模型的防御能力;另一方面,通过AIGC生成的数据来增强模型的防御效果。本文分享了蚂蚁安全实验室关于AIGC方向的最新研究成果供业界参考。
近日,蚂蚁安全天鉴、天筭实验室联合南京大学,推出业界首个端到端多语言可控文本编辑扩散模型DiffUTE。DiffUTE可以实现可控、高保真的自然图像文字编辑,支持多种语言并且易于扩展,相关研究工作被机器学习和计算神经科学领域顶级国际会议NeurIPS 2023收录。
神经信息处理系统大会(Neural Information Processing Systems, NeurIPS)是当前全球最负盛名的AI学术会议之一。今年NeurIPS共收到12343篇论文投稿,接受率为26.1%。
论文标题:
DiffUTE: Universal Text Editing Diffusion Model
论文地址:
https://arxiv.org/abs/2305.10825
目录
1.技术背景
2.方法
3.实验
4.总结与展望
文本编辑技术背景
场景文本编辑技术是一种用于修改或编辑图像中的文本的技术。它在实际应用中具有广泛的用途,例如在广告设计中可以修改产品标语或添加促销信息,图像修复中可以删除不需要的文本,电影后期制作中可以修正片场错误的标识等。这项技术为图像处理和设计领域带来了更多的灵活性和创造力。该技术的主要目标是通过对图像中的文本进行检测、识别和编辑,实现文本的修改、删除、替换或添加。它可以处理各种字体、大小和颜色的文本,无论是印刷体还是手写体。在过去一年中,AIGC领域取得了令人瞩目的进展,尤其是Stable Diffusion[1],ControlNet[2]等一系列图像生成模型,在文生图、图生图、图像编辑等任务中都取得了不错的性能。然而,将它们应用到场景文本编辑任务上时,效果却比较差,如图1所示。模型生成的文字部分基本上是不可读的,类似于乱码,这达不到对真实场景文字编辑的需求。另一方面,此前的文字编辑工作主要集中于研究白底单个汉字的生成[3]或低分辨率英文文本的生成[4],这其实无法满足现实对多语言、多个字、高保真的编辑需求。为了解决上述缺陷,我们提出了DiffUTE模型,首个端到端自监督多语言文本编辑扩散模型,通过海量的互联网数据和扩散模型,实现高保真的文字编辑。
图1 场景文字编辑实例
方法介绍
图2 DiffUTE自监督训练过程
由于文本图像与自然对象的生成具有一定的差异,即自然物体对图像细节的容忍度比文本图像高出许多。尽管文本信息仅包含二维结构的多个笔画,但它具有细粒度的特征,甚至轻微的运动或失真会导致不切实际的图像生成。相比之下,只要对象的语义表示是准确的,自然图像的容忍度要高得多。为了确保生成完美的文本表示,我们引入了两种类型的细粒度指导:位置和字形。
位置引导。与自然图像的微小差异不同,字符像素的潜在特征分布差异很大。为了防止模型崩溃,我们引入了位置控制来解耦不同区域的分布,使模型聚焦于区域进行文本生成。如图所示,我们使用二进制掩码来作为位置引导。
字形引导。语言字符是多样且复杂的。例如,汉字可能由20多个笔画组成,而共有10,000多个常见的汉字。直接从大规模图像-文本数据集中学习没有明确的知识指导是复杂的。因此,我们启发式地将字符图像作为额外的条件信息,以在模型扩散过程中准确地生成文本。
由于我们无法收集并标注大量的数据来进行文本编辑模型的训练,因此我们构建了一种自监督任务来进行训练。如图2所示,我们的自监督训练过程总结如下:
(1)从图像中随机选择一个ocr区域,对应的字形图像以统一的字体样式重新生成。
(2) 将字形图像 输入字形编码器以获得字形条件表征 。
(3) 将掩码图像表征 、掩码 和噪声图像表征 连接起来形成一个新的表征向量 。在通过卷积层进行维度调整后,将表征向量 作为查询分量输入到U-Net中。因此,DiffUTE 的训练目标是预测第 个step的噪声,即:
图3 DiffUTE的推理过程
在推理阶段,如图3所示,DiffUTE可以结合大语言模型(LLM)[5,6]进行控制,用户只需输入想要修改的内容,LLM从OCR的结果中推理出对应的文本和区域信息输入给DiffUTE,从而实现编辑。
实验结果
我们首先定性比较了DiffUTE在生成文字准确性上的性能,结果如表1所示。DiffUTE相比其他模型在生成文字的准确率上取得了长足进步(OCR指的是使用预训练的OCR模型来判断生成的准确性,Cor则是通过人工来判断是否生成了对应的文字)。
表1 生成文字准确性比较
随后我们对所生成的文字图像进行了可视化,如图4所示,DiffUTE能够在保留背景的情况下,生成对应格式、倾斜角度的高质量文字。
图4 生成实例可视化
为了探究所提出的策略和方法的有效性,我们进行了实验,如表2和图5所示,我们所提出的方法和策略都对最终的生成结果起着关键的影响。
表2 消融实验
图5 消融实验
总结与展望
本文介绍了蚂蚁安全实验室在图像文本编辑中的探索,DiffUTE 通过对字形和位置信息的细粒度控制来生成高质量的文本,并通过自我监督训练方法受益于大量文本图像。此外,通过集成大语言模型,我们可以使用自然语言编辑图像中的文本,提高模型的编辑可用性和便利性。
DiffUTE现已被应用于蚂蚁集团的凭证理解、验真等业务中,用于在事前生成大量高质量文本数据,主动进行对模型的攻击评测,并且利用生成样本增强模型的防御能力,将风险扼杀在摇篮中;事后对识别性能较差的黑样本进行快速适应,生成大量高保真样本,使得模型能够快速支持此类型的防伪需求。未来,我们将从如下方向继续在文本图像生成上探索和实践:
●实现对小语种文本图像的编辑
●中文文生带字图像的算法研究
关联阅读
参考文献
[1] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
[2] Zhang, Lvmin, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." arXiv preprint arXiv:2302.05543 (2023).
[3] Wang, Chi, et al. "CF-Font: Content Fusion for Few-shot Font Generation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
[4] Qu, Yadong, et al. "Exploring stroke-level modifications for scene text editing." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 37. No. 2. 2023.
[5] Zeng, Aohan, et al. "Glm-130b: An open bilingual pre-trained model." arXiv preprint arXiv:2210.02414 (2022).
[6] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models." arXiv preprint arXiv:2302.13971 (2023).