【动态】OCR学术前沿及产业应用高峰论坛成功举办
2022年4月24日,由中国图象图形学学会(CSIG)、中国自动化学会(CAA)、《中国图象图形学报》联合主办,CSIG文档图像分析与识别专委会、CAA模式识别与机器智能专委会、《中国图象图形学报》联合承办的2022年“OCR学术前沿及产业应用高峰论坛”成功在线举办,《中国图象图形学报》B站及视频号直播平台、寇享学术直播平台进行了全程直播,来自学术界及工业界17名专家做了精彩报告,通过直播平台参加及观看本次学术活动的人数超过8000人次,反响热烈。稍后我们将陆续安排本次学术论坛的录播回放,请留意本公众号本期及后续文章。
图 1 殷绪成教授主持上午的论坛报告
上午的会议由中国图象图形学学会理事、CSIG文档图像分析与识别专委会副主任兼秘书长殷绪成教授主持。会议开始,中国自动化学会副理事长、中国图象图形学学会常务理事、《中国图象图形学报》领域主编刘成林研究员做了开幕致辞,刘成林研究员指出,文档图像分析与识别长期以来一直是模式识别、人工智能领域的前沿研究问题之一,每年在国际权威期刊及权威会议上都有大量的相关论文发表。自从CSIG文档图像分析与识别专委会成立以来,开展了大量的学术与技术交流活动,学术界与工业界的联系越来越密切,吸引了众多老师、学生、研发及技术人员的广泛关注,越来越多的人员参与及投身到了此领域的研究及应用开发之中。另外,刘成林研究员指出本次论坛同时也是配合《中国图象图形学报》“文档图像智能处理与识别”专刊的征文与组织做热身报告,刘成林研究员介绍了“文档图像智能处理与识别”专刊论文征集的详细情况,并欢迎大家积极投稿。最后,刘成林研究员欢迎大家积极加入CSIG文档图像分析与识别专业委员会,共同推动OCR领域的学术技术发展。
图 2 刘成林研究员做开幕致辞
然后,中国图象图形学学会常务理事、CSIG文档图像分析与识别专委会主任金连文教授介绍了学会概况及近期将开展的学术活动。
图 3 金连文教授致辞并介绍中国图象图形学学会及近期相关学术活动情况
上午第一位特邀讲者是来自中科院自动化所的刘成林研究员,报告题目为“文档分析与识别中的前沿研究问题”。刘成林研究员对文档图像分析与识别领域的主要研究任务及问题,包括版面分析、文本识别、图形符号识别、语义信息提取等进行了系统阐述,刘老师指出:近年来,得益于深度学习方法的发展和应用,文档分析与识别的性能快速提升,相关技术在文档数字化、票据处理、笔迹录入、智能交通、文档检索与信息提取等领域得到广泛应用。然而,实际应用也表明,现有技术在识别精度和可靠性、可解释性、自适应性等方面还有明显不足;从文档信息抽取与利用的角度来说还有一些技术缺口;从系统生成的角度来说还有学习能力的不足。刘老师对相关技术现状做了全面深入的回顾和分析,从方法与技术、性能现状、应用扩展、学习能力等多视角指出了当前技术的不足,并由此提出一些值得重视的研究问题和方向。
图 4 刘成林研究员作报告
上午第二位特邀讲者是来自华中科技大学人工智能与自动化学院白翔教授,报告题为“从线形排列文字到复杂结构文字:手写公式识别的新思考”。白翔教授介绍了编解码网络在文本行识别取得了显著的进展,针对这些方法在处理复杂结构的文字(如手写公式,艺术字)时的局限性问题,介绍了其课题组在离线手写公式识别的新进展,重点探讨了处理复杂排列结构的文字与主流文字识别方法的异同,及未来值得关注的问题。
图 5 白翔教授作报告
上午第三位特邀讲者是来自微软亚洲研究院的崔磊高级研究员,报告题为“文档智能前沿技术进展”。崔磊博士指出,文档智能是近年来蓬勃发展的学术研究课题和工业界需求,其中涉及了自动阅读、理解和分析商业文档的相关技术,由于文档图像布局和格式的多样性、噪音信息的普遍性以及结构的复杂性,理解商业文档是一项非常具有挑战性的任务。崔老师在报告中介绍文档智能前沿技术最新发展,包含文档智能预训练模型以及基于Transformer架构OCR技术的相关进展与突破,并展望未来文档智能领域的发展趋势。
图 6 崔磊高级研究员作报告
上午第四位特邀讲者是来自腾讯计算机系统有限公司的专家研究员王红法,报告题为“广告OCR技术研究与应用”。王红法老师指出网络广告是互联网公司重要的商业模式,对于文本/图像/视频的精准理解已经成为众多实际应用的核心诉求,通过CV、NLP、多模态等AI技术手段,可以显著提升对于广告创意、用户偏好的理解程度,从而更好的服务广告业务。文字识别技术是这些技术手段能够发挥作用的基石,基于图片文字、视频文字的精准识别,可以极大的提升整个AI任务的效果。王红法老师在报告中具体介绍了其领导的团队在图片/视频文字识别方面的一些技术积累、技术应用以及展望。
图 7 专家研究员王红法作报告
上午第五位特邀讲者是来蚂蚁集团-CTO线资深算法专家陈景东,报告题为“OCR实践与技术创新”。陈景东指出:OCR技术在蚂蚁服务用户和小微商户场景中有多样化的应用场景,如用户/商户线上认证,保险智能理赔,企业信息服务等。在大规模的实践应用中对OCR技术提出了全方位的挑战,如何以统一的范式服务多样化的垂直领域,如何对领域知识建模来实现精准的文档图像结构化,如何鉴别存证的可靠性等。这些挑战为OCR技术发展注入了新的动力,同时为跨技术域融合创新提供了新的视角。
图 8 资深算法专家陈景东作报告
上午第六位特邀讲者是来自华南理工大学的金连文教授,报告题为“手写体文字识别新思考——数据、方法及应用”。金老师指出手写文字识别已经有超过40年的研究历史,由于字符类别数巨大(国标GB18010-2001收录的文字类别数高达27533类)、不同书写者风格差异大、连笔/行书/草书等书写随意性高、手写数学公式结构复杂、以及存在不少极易混淆的手写相似字等因素,使得非受限情况下的手写文字识别仍然是一个极具挑战的研究问题。在报告中金老师简要回顾了目前手写文字识别领域的主要研究进展及方法体系,介绍了基于深度学习模型的手写体数据生成、segmentation-based和segmentation-free的手写文字识别以及基于Transformer的手写文字识别等新方法,并展示了金老师课题组研发的一个高性能超大类别联机手写中英文文本行识别在线Demo系统。
图 9 金连文教授作报告
上午第七位特邀讲者是来自中国科学技术大学谢洪涛特任教授,报告题为“篡改文本图像的生成与检测”。谢老师指出:近年来,由深度学习篡改算法生成的文本图像在互联网上广泛传播,已经对多个行业领域产生了很大的影响,其中包括金融票据识别、证件识别和网页内容识别等。本报告从篡改文本图像的生成与检测两个方面进行讲述,通过探索篡改文本的生成网络结构、篡改文本检测的频域信息联合优化等方向,实现篡改文本生成与检测的矛与盾的研究。针对文本生成中复杂字型篡改痕迹明显的问题和篡改文本检测中局部纹理真伪性难以判别的问题,谢老师分别讲述了一种可以在真实场景文本图像上训练的文本生成算法和基于并行空域与频域特征感知的篡改文本检测算法。同时,对如何进一步提升篡改文本生成与检测的性能进行了展望。
图 10 谢洪涛特任教授作报告
下午的会议由中国图象图形学学会常务理事、CSIG文档图像分析与识别专委会主任金连文教授主持。下午会议开始,邀请了《中国图象图形学报》编辑部主任韩向娣副编审进行致辞,韩向娣副编审介绍了学报的详细情况,以及学报开展的各方面学术服务活动。
图 11 《中国图象图形学报》编辑部主任韩向娣副编审进行致辞
下午第一位特邀讲者是来自北京科技大学的殷绪成教授,报告题为“开放集文字识别:概念、框架、算法与应用”。殷老师指出:在诸如智能驾驶、网络多媒体内容安全等开放环境中,新数据、新模式、新类别不断涌现,模式识别与文字识别技术及应用出现新挑战。殷老师在报告中首先简要回顾l了开放环境下文字识别的主要技术挑战,然后重点了介绍其中的一个新方向——“开放集文字识别”(Open-Set Text Recognition),较详细地阐述其基本定义、通用框架和典型算法,最后对开放环境下的多语言多民族文字识别技术及应用进行了初步的探讨与展望。
图 12 殷绪成教授作报告
下午第二位特邀讲者是来自北京大学王选计算机研究所的连宙辉副教授,报告题为“面向文字的图形图像生成技术新进展”。连老师指出:图形图像生成是近年来学术界的研究热点之一,面向文字的图形图像生成技术在字体制作、平面设计、文化遗产保护等领域中有广泛应用前景。此外,通过自动合成逼真的文字/文本/文档图形图像可产生海量训练数据,进而显著提升基于深度学习的各类文字检测识别算法的性能,对于解决现有算法中存在的“有多少人工就有多少智能”的痛点具有重要价值。连老师介绍了在面向文字的图形图像生成方面取得的一些新进展,包括:属性可控的定制字体生成、基于双模态学习的紧凑高质矢量字体自动生成、基于元学习的任意风格汉字书写轨迹合成、内容感知的文字标志(Text Logo)图像生成等方面的工作。
图 13 连宙辉副教授作报告
下午第三位特邀讲者是来自华为云计算技术有限公司主任工程师谢泽澄博士,报告题为“OCR的全栈式研发及行业场景实践”。谢博士介绍了华为云OCR全栈全流程研发及行业场景实践情况,包括依托自研的昇腾和鲲鹏芯片以及MindSpore全场景AI计算框架,实现从模型训练到部署推理的全栈全流程的研发能力。依托OCR大模型技术,华为云推出ModelArtsPro套件,赋能伙伴和客户OCR开发能力,结合专家领域知识,撬动垂直领域的巨大市场。华为云OCR不仅服务于华为内部的巨量需求,还深耕国内各行各业的挑战场景,更立足于全球市场,实践中沉淀出了多语言OCR的全流程解决方案,介绍了面向金融、政务等不同行业用户的全栈AI使能方案。
图 14 谢泽澄博士作报告
下午第四位特邀讲者是来自阿里巴巴安全部高级安全专家杨锐博士,报告题为“资质文档证书类图像的篡改检测及数字经济场景应用”。杨博士指出:目前国内外学术界对图像篡改检测的研究都集中在自然图像篡改检测上面,但日常生活中对我们带来风险损失的假图通常是资质证书、文案、截图等,这些类型图像与自然图像在图像特性上面存在巨大差异,现有的篡改检测方法直接应用到这些新类型图像,性能下降严重。杨博士介绍了阿里巴巴安全部媒体安全研究团队在资质文档证书类图像的伪造篡改检测技术上面的若干探索,介绍了该技术能够解决哪些数字经济场景的痛点问题,并进一步结合真实落地的应用场景案例指出围绕文字内容的伪造篡改检测的难点及挑战。
图 15 杨锐博士作报告
下午第五位特邀讲者是来自上海合合信息科技股份有限公司AIM事业部副总经理丁凯高级工程师,报告题为“OCR产业化应用实践——文档图像质量增强与版面还原”。丁博士指出:OCR技术近年来得到了长足的发展,特别是在文字检测,文字识别和文档结构化理解等方面吸引了大量学术界和工业界研究人员的关注。而作为对OCR整体系统性能和用户体验有重要影响的文档图像质量增强和版面还原的研究却鲜有报道。如何通过图像矫正、图像质量增强解决文档图像中的形变/弯曲及光照影响问题,以提升文档图像质量;如何运用版面还原技术将文档图像转化成可编辑文档(word, excel等)都是工业界希望解决的重要问题。丁博士介绍了合合信息依托自研的TextIn智能文字识别技术平台,在文档图像矫正,图像质量增强及版面还原方面的所做的工作和成果,及其在合合信息旗下扫描全能王(CamScanner)产品中的成功落地情况。最后对相关领域内待解决的挑战性问题进行了讨论和展望。
图 16 丁凯高级工程师作报告
下午第六位特邀讲者是来自中国科学技术大学杜俊副教授,报告题为“结合领域知识的端到端数学公式识别研究进展”。杜老师指出:近年来,基于编解码模型的端到端数学公式识别逐渐成为研究热点之一。杜老师介绍了其领导的团队近期关于如何在编解码模型中充分利用公式识别领域知识方面的一些研究进展。首先在编码器设计方面,采用笔画信息来对在线和离线两个模态的输入信号进行同步对齐,提升了多模态融合的效果;其次在解码器设计方面,提出一种新型的树形解码器,更高效的对公式进行结构建模;最后,在网络优化方面,利用公式的树形结构进行数据增广,并将公式的线性表达和树形表达在互学习框架下进行结合,进一步提升了识别性能。
图 17 杜俊副教授作报告
下午第七位特邀讲者是来中国科学院信息工程研究所周宇副研究员,报告题为“低质量场景文字识别技术研究”。周老师指出:近年来,场景文字识别技术取得了长足进步。然而在实际应用中,受小字体、模糊、反光和遮挡等各种因素影响,已有方法在识别低质量场景文字图像时精度下降明显,速度也难以达到实时。为解决低质量场景文字识别的上述问题,周老师介绍了所提出的语义增强的编解码框架SEED和并行迭代模仿学习网络PIMNet,从融合整体-局部信息和由易到难的角度,提升了识别的鲁棒性,做到了精度与速度较好的平衡。
图 18 周宇副研究员作报告
下午第八位特邀讲者是来自百度深度学习技术平台部资深研发工程师杜宇宁博士,报告题为“从PaddleOCR看OCR产业落地的创新方向”。杜博士首先介绍了PaddleOCR是目前OCR领域全球最有影响力的代码库之一,Github star 19.7k,荣登GitHub 2021 中国项目活跃度TOP5和2021年Paperwithcode趋势榜TOP10,在工商银行等大型企业中广泛应用,受到国内外开发者喜爱。然后杜博士还介绍了OCR在产业落地中的挑战,以及PaddleOCR的四个创新,包括:1) 丰富的OCR前沿算法,2) 超轻量中英文OCR系统PP-OCRv2和智能文档分析系统PP-Structure,3) OCR典型落地场景的推理部署,4) 半自动OCR数据标注工具PPOCRLabel。最后杜博士指出PaddleOCR从数据、模型、训练到部署,全方位创新加速了OCR的产业化落地。
图 19 杜宇宁博士作报告
下午第九位特邀讲者是字节跳动火山引擎-OCR算法负责人黄灿老师,报告题为“视频OCR技术与应用”。黄老师指出视频逐渐成为互联网内容的主流承载形式,视频中包含了大量文字信息,例如视频中原生态的自然场景文字和后期添加的渲染文字(视频中的标题、字幕等),需要借助OCR技术识别视频中的文字并理解其中的语义信息,以便用于内容安全、搜索、广告、推荐等环节。黄老师讲述了视频OCR相关技术,包括“视频智能抽帧、视频文字检测/多帧识别、文本跟踪、字幕与语音对齐、视频文字内容理解-关键信息提取”,另外还介绍视频OCR在业务中的应用。
图 20 黄灿老师作报告
下午第十位特邀讲者是来自海康威视研究院程战战技术专家,报告题为“OCR在垂直应用中的研究进展”。程老师指出:文字识别技术在国计民生中扮演者重要的功能性角色,其应用范围涉及重/轻工业、交通、金融、教育等诸多行业。随着深度学习的近十年发展,OCR技术取得了实质性的进展,算法方案逐步趋于成熟。然而,算法仅是解决现实问题的其中一环,如何输出鲁棒的OCR应用依然错综复杂。在实际应用中,常面临数据困境、性能瓶颈、耗时突出及维护成本高昂等问题,那么以解决系统应用问题为导向的算法研究尤为必要。在报告中,程老师从算法研究及其系统应用的角度介绍了多种研究技术及新方法,亦对当前OCR研究中的关键问题进行讨论和展望。
图 21 程战战技术专家作报告
最后,华中科技大学白翔教授做了闭幕致辞,白翔教授指出:今天听了17个报告,很高兴看到OCR领域的蓬勃发展,非常有朝气,今天的报告有很多前沿方法与技术、也有很多落地应用,令人感到欣慰与鼓舞。白老师呼吁大家要共同支持OCR领域的专业会议,做扎实的研究工作,共同推动此领域的发展,真真正正做出一些有用有影响力的工作;白老师最后还倡议:希望工业界能为学术界提供更多的开放数据,面向OCR领域的青年学生及青年老师设立奖学金或专项研究基金,为国家培养更多OCR领域的青年人才。
图 22 华中科技大学白翔教授做闭幕致辞
本次学术活动获得了相关领域众多老师、同学、研究学者及技术人员的广泛关注,在B站直播平台不少观众与本次论坛的各位演讲嘉宾进行了互动。会后不少老师及同学们对本次论坛的成功举办反响热烈,纷纷表示听了各位专家的报告后收获很大,并强烈希望安排回放或录播,也希望未来能参加更多类似的学术活动。
《Visual Intelligence》英文刊编辑招聘启事中国图象图形学学会高校志愿者招募
中国图象图形学学会关于组织开展科技成果鉴定的通知