CSIG文档图像分析与识别专委会

其他

[ECCV 2022] 别忘记我:通过局部-全局内容建模进行文本擦除方法

Loss验证了高层语义监督的有效性,因此我们认为这些语义可以作为额外的先验直接用于特征的解码与最终结果的生成,于是便在CTRNet中结合了一个HCG模块去学习并利用高层的语义特征。
其他

[ECCV2022] 基于门控注意力和ROI生成的场景文本擦除方法:重要模型的综合分析(已开源)

在Oxford文本合成数据集的结果表1和表2展示了过去几种STR方法在真实数据和合成数据上的性能。从表中可以发现论文提出的方法在合成和真实数据集上效果高于现有的最先进方法。它也比除了EnsNet
其他

[IJCAI 2022] SVTR: 基于单个视觉模型的场景文字识别算法(已开源)

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[ECCV
其他

[ECCV 2022] OCR-free Document Understanding Transformer (已开源)

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[ECCV
其他

MSDS:一个用于笔迹认证的大规模中文签名和令牌数字串数据集

MSDS数据集MSDS数据集的两个子集以相同的方式建立。作者使用了两种Android平板作为数据采集设备,并开发了一个专用的Android
其他

[ECCV 2022]| OCR-free Document Understanding Transformer (有源码)

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[ECCV
其他

[ECCV2022] LevOCR:一种基于视觉语言Transformer的可解释性文字识别方法(已开源)

(LevOCR)。该方法设计了Deletion和Insertion两种字符级操作,可实现字符序列的并行解码和长度调节,最终完成精细化文本生成和矫正任务,表现出非常好的可解释性。二、方法简述2.1
其他

论文推荐|[TMM 2022]基于切分的手写中文文本识别:一种无需切分标注的方法

与CTC/Attention方法的比较该方法与CTC/Attention方法在精度和速度上的比较如表5所示。可以看出,该方法在精度和速度上均由于目前流行的CTC/Attention方法。表5
其他

[ECCV 2022 oral]|​Language Matters:面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法

Text上预训练然后再Total-Text上fine-tune;是指使用文中的预训练方法,每张图给出25%的文本标注进行预训练。可以发现文中的预训练方法效果要好于PSENet直接在Synth
其他

[ACM MM 2022] DiT: 基于Transformer的文档图像自监督预训练方法

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[IJCAI
其他

[IJCAI 2022] C3-STISR: 基于三重线索引导的场景文本图像超分辨率方法(有源码)

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[CVPR
其他

[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[ACM
其他

[ACM MM 2022] 解耦检测与识别:单阶段自依赖场景文本识别器

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[ECCV
自由知乎 自由微博
其他

[ECCV 2022] CoMER: 基于Transformer与覆盖注意力机制建模的手写数学公式识别(已开源)

2014数据集上不同长度正确率的对比从图3中可以看到,相较于基准方法与本文提出的三种覆盖方法,融合覆盖可以大大增强模型对长公式的识别率。这也验证了覆盖机制能够更好地引导注意力对齐历史信息。图4
其他

[ECCV 2022] 场景文字端到端识别中的全局到局部注意

的特征,然后再用检测部分生成的旋转框从输入的图片中把旋转文本Crop出来,再送入到一个Res34的主干网络中提取特征,这部分就是Local的特征。最后把这两个特征送入到Interleaved
其他

[ECCV2022] MGP-STR:一种基于视觉Transformer的多粒度文字识别方法(已开源)

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[IEEE
其他

[IEEE TMM 2022] |手写汉字纠错的树结构分析网络

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[SIGGRAPH
其他

​[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能(有源码)

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[IEEE
其他

[IEEE TIP 2022] | 基于EM算法的混合监督场景文本检测

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[ACM
其他

[ACM 2022] 基于判别式和生成式的自监督文本图像识别方法

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[TMM
其他

[TMM 2022] | 基于多层次跨模态模仿学习的跨语言文本图像识别与翻译方法

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[ACM
其他

[ACM MM 2022] SPTS: Single-Point Text Spotting(已开源)

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾论文推荐|[ACM
其他

论文推荐|[ACM MM 2022] 基于边缘去除和迭代式内容矫正的复杂文档图像校正

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾ECCV
其他

ECCV 2022 Oral | 理解艺术字:用于场景文字识别的角点引导Transformer

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾ECCV2022
其他

ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型(有源码)

Encoder),分别对应文字的语义特征、视觉特征和位置特征。可以看到,加入了语义特征后的的表征特征空间(图2右侧),前后帧相同文字的空间距离更近,这也说明了加入了语义特征后,文本表示更加鲁棒。
其他

[ECCV 2022] 具有计数感知的手写数学公式识别算法(有源码)

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[CVPR
其他

[CVPR 2022]针对场景文本检测的视觉语言模型预训练

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[CVPR
其他

[CVPR 2022] 内容感知的文字标志图像生成方法

Kind”。在中文结果里:(1)根据具体字形安排布局,如“B+侦探”中,将“+”号巧妙地安排到“B”右下角和“侦”左下角之间;(2)根据语义进行换行,如“神探包青天”和“春风十里不如你”。4.2
其他

[IEEE TIFS 2022] 深度软动态时间规整:用于联机签名认证的局部表征学习新方法(有源码)

DS2,共含有来自1526位用户的69972个签名,采集自多个不同型号的数字平板与移动设备,书写工具分为手写笔(Stylus)以及手指(Finger)。论文遵循DeepSignDB
其他

基于概率分布图的任意形状文本实例分割和检测方法(有源码)

(SAF)。SAF函数可以将距离值映射到范围[0,1],映射后的值可以被视为像素的概率值。于是,这篇文章采用SAF函数将像素到标注边界之间的距离映射为某种概率分布,即将距离图(Distance
其他

[IJCAI 2022] 平面几何图例解析(有源码和数据集)

表2给出了PGDP5K数据集中几何基元的提取性能,其中直线实例只评估共线最长的直线。与传统方法(如Freeman链码和GEOS[1])相比,本文的方法取得了显著的进步,特别是在点和线的实例提取。表2
其他

论文推荐|[CVPR 2022]通过权重平衡的长尾识别(有源码)

作者也发现直接后处理L2-normalization的做法,提高了模型对稀有类的识别但是牺牲了对常见类的识别。也指出后处理L2-normalization类似于τ-normalization:
其他

[IEEE TPAMI 2022] 基于定制化迭代和采样的高效查询黑盒对抗攻击(有源码)

BROS:一种专注于文本和版面信息的预训练语言模型,用于更好地抽取文档关键信息(有源码)[CVPR
其他

[ACL2022] FormNet:表单文档信息抽取中超越序列建模的结构编码方法

Attention机制调整Transformer中的注意力分数更好地获取了文档的结构信息。实验结果表明该网络使用更少的预训练数据和以更少的网络参数在表单类信息抽取数据集中取得了更好的效果。
其他

[学术报告视频回播] 2022年OCR学术前沿及产业应用高峰论坛(第2集)

2022年4月24日,由中国图象图形学学会、中国自动化学会、《中国图象图形学报》联合主办,CSIG文档图像分析与识别专委会、CAA模式识别与机器智能专委会、《中国图象图形学报》联合承办的OCR学术前沿及产业应用高峰论坛成功在线举办,来自学术界及工业界17名特邀专家做了精彩报告,本期带来本次论坛的第4-6个特邀报告的视频录播。特邀报告4:广告OCR技术研究与应用特邀讲者:王红法(腾讯计算机系统有限公司,
其他

[学术报告视频回播] 2022年OCR学术前沿及产业应用高峰论坛(第1集)

2022年4月24日,由中国图象图形学学会、中国自动化学会、《中国图象图形学报》联合主办,CSIG文档图像分析与识别专委会、CAA模式识别与机器智能专委会、《中国图象图形学报》联合承办的OCR学术前沿及产业应用高峰论坛成功在线举办,来自学术界及工业界17名特邀专家做了精彩报告,通过直播平台参加及观看本次学术报告会的人数超过8000人次,反响热烈。本期带来本次论坛的第1-3个特邀报告的视频录播。特邀报告1:
其他

OCR学术前沿及产业应用高峰论坛成功举办

2022年4月24日,由中国图象图形学学会(CSIG)、中国自动化学会(CAA)、《中国图象图形学报》联合主办,CSIG文档图像分析与识别专委会、CAA模式识别与机器智能专委会、《中国图象图形学报》联合承办的2022年“OCR学术前沿及产业应用高峰论坛”成功在线举办,《中国图象图形学报》B站及视频号直播平台、寇享学术直播平台进行了全程直播,来自学术界及工业界17名专家做了精彩报告,通过直播平台参加及观看本次学术活动的人数超过8000人次,反响热烈。稍后我们将陆续安排本次学术论坛的录播回放,请留意本公众号本期及后续文章。殷绪成教授主持上午的论坛报告上午的会议由中国图象图形学会理事、CSIG文档图像分析与识别专委会副主任兼秘书长殷绪成教授主持。会议开始,中国自动化学会副理事长、中国图象图形学会常务理事、《中国图象图形学报》领域主编刘成林研究员做了开幕致辞,刘成林研究员指出,文档图像分析与识别长期以来一直是模式识别、人工智能领域的前沿研究问题之一,每年在国际权威期刊及权威会议上都有大量的相关论文发表。自从CSIG文档图像分析与识别专委会成立以来,开展了大量的学术与技术交流活动,学术界与工业界的联系越来越密切,吸引了众多老师、学生、研发及技术人员的广泛关注,越来越多的人员参与及投身到了此领域的研究及应用开发之中。另外,刘成林研究员指出本次论坛同时也是配合《中国图象图形学报》“文档图像智能处理与识别”专刊的征文与组织做热身报告,刘成林研究员介绍了“文档图像智能处理与识别”专刊论文征集的详细情况,并欢迎大家积极投稿。最后,刘成林研究员欢迎大家积极加入CSIG文档图像分析与识别专业委员会,共同推动OCR领域的学术技术发展。刘成林研究员做开幕致辞然后,中国图象图形学学会常务理事、CSIG文档图像分析与识别专委会主任金连文教授介绍了学会概况及近期将开展的学术活动。金连文教授致辞并介绍中国图象图形学学会及近期相关学术活动情况上午第一位特邀讲者是来自中科院自动化所的刘成林研究员,报告题目为“文档分析与识别中的前沿研究问题”。刘成林研究员对文档图像分析与识别领域的主要研究任务及问题,包括版面分析、文本识别、图形符号识别、语义信息提取等进行了系统阐述,刘老师指出:近年来,得益于深度学习方法的发展和应用,文档分析与识别的性能快速提升,相关技术在文档数字化、票据处理、笔迹录入、智能交通、文档检索与信息提取等领域得到广泛应用。然而,实际应用也表明,现有技术在识别精度和可靠性、可解释性、自适应性等方面还有明显不足;从文档信息抽取与利用的角度来说还有一些技术缺口;从系统生成的角度来说还有学习能力的不足。刘老师对相关技术现状做了全面深入的回顾和分析,从方法与技术、性能现状、应用扩展、学习能力等多视角指出了当前技术的不足,并由此提出一些值得重视的研究问题和方向。上午第二位特邀讲者是来自华中科技大学人工智能与自动化学院白翔教授,报告题为“从线形排列文字到复杂结构文字:手写公式识别的新思考”。白翔教授介绍了编解码网络在文本行识别取得了显著的进展,针对这些方法在处理复杂结构的文字(如手写公式,艺术字)时的局限性问题,介绍了其课题组在离线手写公式识别的新进展,重点探讨了处理复杂排列结构的文字与主流文字识别方法的异同,及未来值得关注的问题。上午第三位特邀讲者是来自微软亚洲研究院的崔磊高级研究员,报告题为“文档智能前沿技术进展”。崔磊博士指出,文档智能是近年来蓬勃发展的学术研究课题和工业界需求,其中涉及了自动阅读、理解和分析商业文档的相关技术,由于文档图像布局和格式的多样性、噪音信息的普遍性以及结构的复杂性,理解商业文档是一项非常具有挑战性的任务。崔老师在报告中介绍文档智能前沿技术最新发展,包含文档智能预训练模型以及基于Transformer架构OCR技术的相关进展与突破,并展望未来文档智能领域的发展趋势。上午第四位特邀讲者是来自腾讯计算机系统有限公司的专家研究员王红法,报告题为“广告OCR技术研究与应用”。王红法老师指出网络广告是互联网公司重要的商业模式,对于文本/图像/视频的精准理解已经成为众多实际应用的核心诉求,通过CV、NLP、多模态等AI技术手段,可以显著提升对于广告创意、用户偏好的理解程度,从而更好的服务广告业务。文字识别技术是这些技术手段能够发挥作用的基石,基于图片文字、视频文字的精准识别,可以极大的提升整个AI任务的效果。王红法老师在报告中具体介绍了其领导的团队在图片/视频文字识别方面的一些技术积累、技术应用以及展望。上午第五位特邀讲者是来蚂蚁集团-CTO线资深算法专家陈景东,报告题为“OCR实践与技术创新”。陈景东指出:OCR技术在蚂蚁服务用户和小微商户场景中有多样化的应用场景,如用户/商户线上认证,保险智能理赔,企业信息服务等。在大规模的实践应用中对OCR技术提出了全方位的挑战,如何以统一的范式服务多样化的垂直领域,如何对领域知识建模来实现精准的文档图像结构化,如何鉴别存证的可靠性等。这些挑战为OCR技术发展注入了新的动力,同时为跨技术域融合创新提供了新的视角。上午第六位特邀讲者是来自华南理工大学的金连文教授,报告题为“手写体文字识别新思考——数据、方法及应用”。金老师指出手写文字识别已经有超过40年的研究历史,由于字符类别数巨大(国标GB18010-2001收录的文字类别数高达27533类)、不同书写者风格差异大、连笔/行书/草书等书写随意性高、手写数学公式结构复杂、以及存在不少极易混淆的手写相似字等因素,使得非受限情况下的手写文字识别仍然是一个极具挑战的研究问题。在报告中金老师简要回顾了目前手写文字识别领域的主要研究进展及方法体系,介绍了基于深度学习模型的手写体数据生成、segmentation-based和segmentation-free的手写文字识别以及基于Transformer的手写文字识别等新方法,并展示了金老师课题组研发的一个高性能超大类别联机手写中英文文本行识别在线Demo系统。上午第七位特邀讲者是来自中国科学技术大学谢洪涛特任教授,报告题为“篡改文本图像的生成与检测”。谢老师指出:近年来,由深度学习篡改算法生成的文本图像在互联网上广泛传播,已经对多个行业领域产生了很大的影响,其中包括金融票据识别、证件识别和网页内容识别等。本报告从篡改文本图像的生成与检测两个方面进行讲述,通过探索篡改文本的生成网络结构、篡改文本检测的频域信息联合优化等方向,实现篡改文本生成与检测的矛与盾的研究。针对文本生成中复杂字型篡改痕迹明显的问题和篡改文本检测中局部纹理真伪性难以判别的问题,谢老师分别讲述了一种可以在真实场景文本图像上训练的文本生成算法和基于并行空域与频域特征感知的篡改文本检测算法。同时,对如何进一步提升篡改文本生成与检测的性能进行了展望。下午的会议由中国图象图形学会常务理事、CSIG文档图像分析与识别专委会主任金连文教授主持。下午会议开始,邀请了《中国图象图形学报》编辑部主任韩向娣副编审进行致辞,韩向娣副编审介绍了学报的详细情况,以及学报开展的各方面学术服务活动。《中国图象图形学报》编辑部主任韩向娣副编审进行致辞下午第一位特邀讲者是来自北京科技大学的殷绪成教授,报告题为“开放集文字识别:概念、框架、算法与应用”。殷老师指出:在诸如智能驾驶、网络多媒体内容安全等开放环境中,新数据、新模式、新类别不断涌现,模式识别与文字识别技术及应用出现新挑战。殷老师在报告中首先简要回顾l了开放环境下文字识别的主要技术挑战,然后重点了介绍其中的一个新方向——“开放集文字识别”(Open-Set
其他

[CVPR2022] 端到端的场景文字检测与版面分析统一框架

Head中提取特征,该结构是三层MHSA[3],目的是使用自注意力机制来让Queries互相学习。之后对输出的Queries互相计算内积,得到相矩阵。在推理的时候将相似度大于阈值的归为同一个文本簇。
其他

[AAAI 2022] BROS:一种专注于文本和版面信息的预训练语言模型,用于更好地抽取文档关键信息(有源码)

Model与BERT[4]和LayoutLMv2[1]中的一致,即对文档中的单词进行随机掩码,通过上下文信息预测掩码处的单词。如图3所示,其中红色框为选中的token,灰色区域则是单词的掩码。
其他

[CVPR 2022] Mobile-Former: Bridging MobileNet and Transformer

在本文中,作者采用并联的设计范式,将MobileNet和Transformer并行化,提出了一种新的双向并行架构,并将其命名为Mobile-Former,其中Mobile指MobileNet,
其他

CSIG-广东省CVPR 2022论文分享会

特邀讲者及嘉宾、CSIG理事、GDSIG理事及CSIG文档图像分析识别专委会委员、CSIG机器视觉专委会委员可通过腾讯会议系统参加,会议ID另行通知。联系人:张老师,
其他

[CVPR 2022] TATT:用于场景文本图像超分辨率的文本注意力网络

,利用提取的文本先验知识来解决这个问题。这篇工作是作者对其先前工作TPGSR[2]的改进,TATT和TPGSR都是基于文本先验引导(TP-guided)的方法;但作者认为TPGSR
其他

[CVPR2022] CG-GAN: 基于部件级感知的one-shot字体生成

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[CVPR
其他

[CVPR 2022] 通过字符上下文解耦的开放集文本识别新方法(有源码)

MLT等公开的数据中收集得来的中文文本图片,测试数据为MLT中的日文文本图片。表1实验说明本文的方法与OSOCR[2]对比,在字符精度和整行识别率上都取得明显提升。证明该放法识别新字符的有效性。表1
其他

[CVPR 2022]SimAN: 基于生成式模型的文本图像自监督表征学习

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[AAAI
其他

[AAAI 2022] 用于场景文本识别的视觉语义辅助文本推理(有源码)

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾论文推荐|[ACM
其他

论文推荐|[ACM MM 2021] JokerGAN: 低参数量的具有文本行感知的手写文本生成模型

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[CVPR
其他

【重要通知】OCR学术前沿及产业应用高峰论坛会议预告

中国科学-信息科学、自动化学报编委。曾担任CVPR、AAAI、IJCAI、ICPR等人工智能主流国际会议的领域主席/资深技术程序委员或竞赛主席10余次。2020年入选国际模式识别协会会士。报告题目:
其他

[CVPR 2022] 基于场景文字知识挖掘的细粒度图像识别算法(有源码)

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[CVPR
其他

[CVPR 2022] 特征采样与分组:基于Transformer的场景文字检测方法

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。往期精彩内容回顾[AAAI