华南理工牵头在ICDAR-ReCTS竞赛中荣获两项国际冠军
2019年ICDAR 2019国际会议海报
日前,2019年ICDAR 2019国际会议的ReCTS(中英文街景招牌文字检测与识别)国际学术比赛结果揭晓,华南理工大学电子与信息学院金连文教授牵头带领的团队在文本行检测、文本行识别两项任务中荣获国际冠军,在端到端检测识别任务中获得亚军。正式颁奖仪式将于今年九月份在悉尼举行。
据介绍,场景招牌文字检测与识别在电子商务、智慧物流、精准导航、商家检索等领域有广泛的应用前景。ICDAR-ReCTS是首次提出大规模自然场景中英文招牌数据集的比赛,共有25000张场景图像,涵盖了各种挑战的场景。该比赛共设有单字符图片识别、文本行图片进行识别、文字检测、端到端检测与识别四个任务,吸引了80个高校和企业参加,其中包括北京大学、中科院、华南理工、西工大、中国科技大学、华中科大、复旦大学、天津大学、北航、美国卡耐基梅隆大学、澳大利亚阿德莱德大学、新加坡南洋理工大学、华为、阿里巴巴、腾讯、科大讯飞、商汤科技、平安科技等国内外知名高校和企业。
金连文教授团队牵头和澳大利亚阿德莱德大学、西北工业大学、联想、华为的研究人员合作组队参赛,在单字符图片识别中取得第四名,在文本行识别任务中荣获第一名,在文本行检测任务中荣获第一名,在端到端检测与识别中以0.06%的微弱差距屈居第二名。
ReCTS招牌文字检测与识别示意图
在文本行识别任务中,金连文教授团队对文本中的文字偏移进行了纠正,提出了MORAN识别框架(Pattern Recognition 2019, JCR Q1),同时改善了注意力机制的长时间错误累计问题,提出了DAN注意力机制字符串识别新模型,而且根据文本的语义特点加入序列建模以及Transformer算法(由西工大提供)。上述的算法在该任务中取得了95.55的得分(1-NED),获得冠军。
在文本行检测任务)中,金连文教授团队针对文本的极端形状设计了TIoU评估标准(已被国际顶会CVPR 2019接收),并以此为优化方向,迭代优化算法和模型参数,得到更加精确的检测框。针对倾斜文本的标注起点不一致的问题,金连文教授团队提出了Sequential-free的检测框架BDN(已被国际顶会IJCAI 2019接收),获得了对倾斜框标注顺序不敏感的数据,并实现了高效的检测算法。同时,对于不规则形状的文本,金连文教授团队提出了CTD框架(Pattern Recognition 2019, JCR Q1),能够回归出弯曲文本的包络线,精确地提取出文本区域。以上的检测算法在该比赛中取得了93.36的综合得分(F-Score),获得冠军。 (图文/电子与信息学院 编辑/赵春旭)