蚂蚁安全实验室DiffUTE中稿全球人工智能顶会NeurIPS2023

蚂蚁技术AntTech

2024-08-22

蚂蚁集团的业务时刻面临着新的黑产攻击方式，新的攻击方式往往具有样本稀疏的特性。而现有风险识别模型需要大量数据来学习攻击的特征和模式。为了使模型能够快速覆盖新的风险，蚂蚁安全实验室在安全AIGC方向广泛布局，构建了安全域AIGC图像生成底座：一方面，借助AIGC的能力来评测模型的防御能力；另一方面，通过AIGC生成的数据来增强模型的防御效果。本文分享了蚂蚁安全实验室关于AIGC方向的最新研究成果供业界参考。

近日，蚂蚁安全天鉴、天筭实验室联合南京大学，推出业界首个端到端多语言可控文本编辑扩散模型DiffUTE。DiffUTE可以实现可控、高保真的自然图像文字编辑，支持多种语言并且易于扩展，相关研究工作被机器学习和计算神经科学领域顶级国际会议NeurIPS 2023收录。

神经信息处理系统大会(Neural Information Processing Systems, NeurIPS)是当前全球最负盛名的AI学术会议之一。今年NeurIPS共收到12343篇论文投稿，接受率为26.1%。

论文标题：

DiffUTE: Universal Text Editing Diffusion Model

论文地址：

https://arxiv.org/abs/2305.10825

1.技术背景

2.方法

3.实验

4.总结与展望

文本编辑技术背景

场景文本编辑技术是一种用于修改或编辑图像中的文本的技术。它在实际应用中具有广泛的用途，例如在广告设计中可以修改产品标语或添加促销信息，图像修复中可以删除不需要的文本，电影后期制作中可以修正片场错误的标识等。这项技术为图像处理和设计领域带来了更多的灵活性和创造力。该技术的主要目标是通过对图像中的文本进行检测、识别和编辑，实现文本的修改、删除、替换或添加。它可以处理各种字体、大小和颜色的文本，无论是印刷体还是手写体。在过去一年中，AIGC领域取得了令人瞩目的进展，尤其是Stable Diffusion[1]，ControlNet[2]等一系列图像生成模型，在文生图、图生图、图像编辑等任务中都取得了不错的性能。然而，将它们应用到场景文本编辑任务上时，效果却比较差，如图1所示。模型生成的文字部分基本上是不可读的，类似于乱码，这达不到对真实场景文字编辑的需求。另一方面，此前的文字编辑工作主要集中于研究白底单个汉字的生成[3]或低分辨率英文文本的生成[4]，这其实无法满足现实对多语言、多个字、高保真的编辑需求。为了解决上述缺陷，我们提出了DiffUTE模型，首个端到端自监督多语言文本编辑扩散模型，通过海量的互联网数据和扩散模型，实现高保真的文字编辑。

图1 场景文字编辑实例

方法介绍

图2 DiffUTE自监督训练过程

由于文本图像与自然对象的生成具有一定的差异，即自然物体对图像细节的容忍度比文本图像高出许多。尽管文本信息仅包含二维结构的多个笔画，但它具有细粒度的特征，甚至轻微的运动或失真会导致不切实际的图像生成。相比之下，只要对象的语义表示是准确的，自然图像的容忍度要高得多。为了确保生成完美的文本表示，我们引入了两种类型的细粒度指导：位置和字形。

位置引导。与自然图像的微小差异不同，字符像素的潜在特征分布差异很大。为了防止模型崩溃，我们引入了位置控制来解耦不同区域的分布，使模型聚焦于区域进行文本生成。如图所示，我们使用二进制掩码来作为位置引导。

字形引导。语言字符是多样且复杂的。例如，汉字可能由20多个笔画组成，而共有10,000多个常见的汉字。直接从大规模图像-文本数据集中学习没有明确的知识指导是复杂的。因此，我们启发式地将字符图像作为额外的条件信息，以在模型扩散过程中准确地生成文本。

由于我们无法收集并标注大量的数据来进行文本编辑模型的训练，因此我们构建了一种自监督任务来进行训练。如图2所示，我们的自监督训练过程总结如下：

(1)从图像中随机选择一个ocr区域，对应的字形图像以统一的字体样式重新生成。

(2) 将字形图像输入字形编码器以获得字形条件表征。

(3) 将掩码图像表征、掩码和噪声图像表征连接起来形成一个新的表征向量。在通过卷积层进行维度调整后，将表征向量作为查询分量输入到U-Net中。因此，DiffUTE 的训练目标是预测第个step的噪声，即：

图3 DiffUTE的推理过程

在推理阶段，如图3所示，DiffUTE可以结合大语言模型(LLM)[5,6]进行控制，用户只需输入想要修改的内容，LLM从OCR的结果中推理出对应的文本和区域信息输入给DiffUTE，从而实现编辑。

实验结果

我们首先定性比较了DiffUTE在生成文字准确性上的性能，结果如表1所示。DiffUTE相比其他模型在生成文字的准确率上取得了长足进步（OCR指的是使用预训练的OCR模型来判断生成的准确性，Cor则是通过人工来判断是否生成了对应的文字）。

表1 生成文字准确性比较

随后我们对所生成的文字图像进行了可视化，如图4所示，DiffUTE能够在保留背景的情况下，生成对应格式、倾斜角度的高质量文字。

图4 生成实例可视化

为了探究所提出的策略和方法的有效性，我们进行了实验，如表2和图5所示，我们所提出的方法和策略都对最终的生成结果起着关键的影响。

表2 消融实验

图5 消融实验

总结与展望

本文介绍了蚂蚁安全实验室在图像文本编辑中的探索，DiffUTE 通过对字形和位置信息的细粒度控制来生成高质量的文本，并通过自我监督训练方法受益于大量文本图像。此外，通过集成大语言模型，我们可以使用自然语言编辑图像中的文本，提高模型的编辑可用性和便利性。

DiffUTE现已被应用于蚂蚁集团的凭证理解、验真等业务中，用于在事前生成大量高质量文本数据，主动进行对模型的攻击评测，并且利用生成样本增强模型的防御能力，将风险扼杀在摇篮中；事后对识别性能较差的黑样本进行快速适应，生成大量高保真样本，使得模型能够快速支持此类型的防伪需求。未来，我们将从如下方向继续在文本图像生成上探索和实践：
●实现对小语种文本图像的编辑
●中文文生带字图像的算法研究

关联阅读

参考文献

[1] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
[2] Zhang, Lvmin, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." arXiv preprint arXiv:2302.05543 (2023).
[3] Wang, Chi, et al. "CF-Font: Content Fusion for Few-shot Font Generation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
[4] Qu, Yadong, et al. "Exploring stroke-level modifications for scene text editing." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 37. No. 2. 2023.
[5] Zeng, Aohan, et al. "Glm-130b: An open bilingual pre-trained model." arXiv preprint arXiv:2210.02414 (2022).
[6] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models." arXiv preprint arXiv:2302.13971 (2023).

继续滑动看下一个

蚂蚁技术AntTech

向上滑动看下一个

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

爆火！59.9元入「普陀山福绳」！非遗编织...品牌直发

蚂蚁安全实验室DiffUTE中稿全球人工智能顶会NeurIPS2023

您可能也对以下帖子感兴趣

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

爆火！59.9元入「普陀山福绳」！非遗编织...品牌直发

生成图片，分享到微信朋友圈

蚂蚁安全实验室DiffUTE中稿全球人工智能顶会NeurIPS2023

您可能也对以下帖子感兴趣