其他
2022年4月24日,由中国图象图形学学会(CSIG)、中国自动化学会(CAA)、《中国图象图形学报》联合主办,CSIG文档图像分析与识别专委会、CAA模式识别与机器智能专委会、《中国图象图形学报》联合承办的2022年“OCR学术前沿及产业应用高峰论坛”成功在线举办,《中国图象图形学报》B站及视频号直播平台、寇享学术直播平台进行了全程直播,来自学术界及工业界17名专家做了精彩报告,通过直播平台参加及观看本次学术活动的人数超过8000人次,反响热烈。稍后我们将陆续安排本次学术论坛的录播回放,请留意本公众号本期及后续文章。殷绪成教授主持上午的论坛报告上午的会议由中国图象图形学会理事、CSIG文档图像分析与识别专委会副主任兼秘书长殷绪成教授主持。会议开始,中国自动化学会副理事长、中国图象图形学会常务理事、《中国图象图形学报》领域主编刘成林研究员做了开幕致辞,刘成林研究员指出,文档图像分析与识别长期以来一直是模式识别、人工智能领域的前沿研究问题之一,每年在国际权威期刊及权威会议上都有大量的相关论文发表。自从CSIG文档图像分析与识别专委会成立以来,开展了大量的学术与技术交流活动,学术界与工业界的联系越来越密切,吸引了众多老师、学生、研发及技术人员的广泛关注,越来越多的人员参与及投身到了此领域的研究及应用开发之中。另外,刘成林研究员指出本次论坛同时也是配合《中国图象图形学报》“文档图像智能处理与识别”专刊的征文与组织做热身报告,刘成林研究员介绍了“文档图像智能处理与识别”专刊论文征集的详细情况,并欢迎大家积极投稿。最后,刘成林研究员欢迎大家积极加入CSIG文档图像分析与识别专业委员会,共同推动OCR领域的学术技术发展。刘成林研究员做开幕致辞然后,中国图象图形学学会常务理事、CSIG文档图像分析与识别专委会主任金连文教授介绍了学会概况及近期将开展的学术活动。金连文教授致辞并介绍中国图象图形学学会及近期相关学术活动情况上午第一位特邀讲者是来自中科院自动化所的刘成林研究员,报告题目为“文档分析与识别中的前沿研究问题”。刘成林研究员对文档图像分析与识别领域的主要研究任务及问题,包括版面分析、文本识别、图形符号识别、语义信息提取等进行了系统阐述,刘老师指出:近年来,得益于深度学习方法的发展和应用,文档分析与识别的性能快速提升,相关技术在文档数字化、票据处理、笔迹录入、智能交通、文档检索与信息提取等领域得到广泛应用。然而,实际应用也表明,现有技术在识别精度和可靠性、可解释性、自适应性等方面还有明显不足;从文档信息抽取与利用的角度来说还有一些技术缺口;从系统生成的角度来说还有学习能力的不足。刘老师对相关技术现状做了全面深入的回顾和分析,从方法与技术、性能现状、应用扩展、学习能力等多视角指出了当前技术的不足,并由此提出一些值得重视的研究问题和方向。上午第二位特邀讲者是来自华中科技大学人工智能与自动化学院白翔教授,报告题为“从线形排列文字到复杂结构文字:手写公式识别的新思考”。白翔教授介绍了编解码网络在文本行识别取得了显著的进展,针对这些方法在处理复杂结构的文字(如手写公式,艺术字)时的局限性问题,介绍了其课题组在离线手写公式识别的新进展,重点探讨了处理复杂排列结构的文字与主流文字识别方法的异同,及未来值得关注的问题。上午第三位特邀讲者是来自微软亚洲研究院的崔磊高级研究员,报告题为“文档智能前沿技术进展”。崔磊博士指出,文档智能是近年来蓬勃发展的学术研究课题和工业界需求,其中涉及了自动阅读、理解和分析商业文档的相关技术,由于文档图像布局和格式的多样性、噪音信息的普遍性以及结构的复杂性,理解商业文档是一项非常具有挑战性的任务。崔老师在报告中介绍文档智能前沿技术最新发展,包含文档智能预训练模型以及基于Transformer架构OCR技术的相关进展与突破,并展望未来文档智能领域的发展趋势。上午第四位特邀讲者是来自腾讯计算机系统有限公司的专家研究员王红法,报告题为“广告OCR技术研究与应用”。王红法老师指出网络广告是互联网公司重要的商业模式,对于文本/图像/视频的精准理解已经成为众多实际应用的核心诉求,通过CV、NLP、多模态等AI技术手段,可以显著提升对于广告创意、用户偏好的理解程度,从而更好的服务广告业务。文字识别技术是这些技术手段能够发挥作用的基石,基于图片文字、视频文字的精准识别,可以极大的提升整个AI任务的效果。王红法老师在报告中具体介绍了其领导的团队在图片/视频文字识别方面的一些技术积累、技术应用以及展望。上午第五位特邀讲者是来蚂蚁集团-CTO线资深算法专家陈景东,报告题为“OCR实践与技术创新”。陈景东指出:OCR技术在蚂蚁服务用户和小微商户场景中有多样化的应用场景,如用户/商户线上认证,保险智能理赔,企业信息服务等。在大规模的实践应用中对OCR技术提出了全方位的挑战,如何以统一的范式服务多样化的垂直领域,如何对领域知识建模来实现精准的文档图像结构化,如何鉴别存证的可靠性等。这些挑战为OCR技术发展注入了新的动力,同时为跨技术域融合创新提供了新的视角。上午第六位特邀讲者是来自华南理工大学的金连文教授,报告题为“手写体文字识别新思考——数据、方法及应用”。金老师指出手写文字识别已经有超过40年的研究历史,由于字符类别数巨大(国标GB18010-2001收录的文字类别数高达27533类)、不同书写者风格差异大、连笔/行书/草书等书写随意性高、手写数学公式结构复杂、以及存在不少极易混淆的手写相似字等因素,使得非受限情况下的手写文字识别仍然是一个极具挑战的研究问题。在报告中金老师简要回顾了目前手写文字识别领域的主要研究进展及方法体系,介绍了基于深度学习模型的手写体数据生成、segmentation-based和segmentation-free的手写文字识别以及基于Transformer的手写文字识别等新方法,并展示了金老师课题组研发的一个高性能超大类别联机手写中英文文本行识别在线Demo系统。上午第七位特邀讲者是来自中国科学技术大学谢洪涛特任教授,报告题为“篡改文本图像的生成与检测”。谢老师指出:近年来,由深度学习篡改算法生成的文本图像在互联网上广泛传播,已经对多个行业领域产生了很大的影响,其中包括金融票据识别、证件识别和网页内容识别等。本报告从篡改文本图像的生成与检测两个方面进行讲述,通过探索篡改文本的生成网络结构、篡改文本检测的频域信息联合优化等方向,实现篡改文本生成与检测的矛与盾的研究。针对文本生成中复杂字型篡改痕迹明显的问题和篡改文本检测中局部纹理真伪性难以判别的问题,谢老师分别讲述了一种可以在真实场景文本图像上训练的文本生成算法和基于并行空域与频域特征感知的篡改文本检测算法。同时,对如何进一步提升篡改文本生成与检测的性能进行了展望。下午的会议由中国图象图形学会常务理事、CSIG文档图像分析与识别专委会主任金连文教授主持。下午会议开始,邀请了《中国图象图形学报》编辑部主任韩向娣副编审进行致辞,韩向娣副编审介绍了学报的详细情况,以及学报开展的各方面学术服务活动。《中国图象图形学报》编辑部主任韩向娣副编审进行致辞下午第一位特邀讲者是来自北京科技大学的殷绪成教授,报告题为“开放集文字识别:概念、框架、算法与应用”。殷老师指出:在诸如智能驾驶、网络多媒体内容安全等开放环境中,新数据、新模式、新类别不断涌现,模式识别与文字识别技术及应用出现新挑战。殷老师在报告中首先简要回顾l了开放环境下文字识别的主要技术挑战,然后重点了介绍其中的一个新方向——“开放集文字识别”(Open-Set