查看原文
其他

1024揭秘:如何在两周内拿下CCKS竞赛大奖?

文本智能处理专家 达观数据 2022-09-16

在今年全国知识图谱与语义计算大会(CCKS:China Conference on KnowledgeGraph and Semantic Computing)上,达观数据以0.959F1值斩获CCKS 2019“公众公司公告信息抽取”任务亚军殊荣。而拿下CCKS喜人的名次,竞赛团队只用了两周的时间。


比赛初衷

达观数据联合创始人高翔介绍,“CCKS举办的评测任务竞赛历来受到业内人士的高度关注,本次竞赛的数据类型、规模及测评任务和日常达观数据智能文档审阅系统(Intelligent Document Processing System,以下简称IDPS)去解决的实际问题类似。在短时间内用工业级的产品直接参与学术竞赛,是一次验证产品效果的好机会。


IDPS是什么?

IDPS是达观数据自主研发的一款集抽取、审核、比对、标注、管理、训练等多功能于一体的文本智能处理系统,可大幅提高企业对各类文档处理和管理效率。


达观数据IDPS系统

IDPS基于海量文本语料库、审核规则、外界知识库(法规库),可实现对合同、审计报告、保险条款等多种文档由浅及深的审阅方式。同时融合先进的自然语言处理技术、计算机视觉,结合深度学习、图像处理等 AI 技术,实现对文档内容的深入理解和分析,重新定义智能时代的文档审阅模式。


比赛概况

本次竞赛主要由技术团队曾彦能、朱耀邦、顾嘉晟和李欣等工程师,及标注团队杜乐婷、白思涛和邱丹等知识工程师共同参与。在2周时间内,大家展现出了高效、专业、务实及团结的协作精神。
  
本次竞赛中,测评子任务1的主要内容为对表格中的信息点提取。达观数据算法工程师朱耀邦介绍,目前表格抽取常用方法是基于cv的表格抽取算法。其基本原理是首先用cv的方法检测文件中的线条,然后检测出其中的表格区域,最后根据线条构造出单元格。对于表格线条、轮廓比较清晰的文件,这种方法效果较好。但在处理无线条表格、扫描件中的表格时,这种方法就不太可行。

 IDPS系统结合OCR进行表格解析

 
“我们在IDPS产品中设计并实现了一种基于OpenCV和Faster R-CNN深度学习模型的表格抽取算法。 分别使用OpenCV方法识别有线条表格,深度学习方法识别一般表格,然后将二者的识别结果进行融合,这种方法在CCKS主办方的测试集上达到了 0.978的准确率。
 
测评子任务2中,参赛选手需要完成文本段落中的信息点提取。达观数据工程师曾彦能介绍,在整个比赛过程中,出于检验系统效果和性能,大家只应用了主办方提供的数据而没有添加任何外部公告数据。从经验以及比赛的结果来看,多去应用迁移学习的方法,比如BERT模型,在数据量小的情况下,增强语义泛化能力。IDPS这款产品中也内置了ERNIE、RoBERTa、XLNet、ALBERT等多种前沿算法,经过测试后,这些模型在一些金融文档上面有很好的应用效果。

应用IDPS训练竞赛数据

“在这个过程中多去看一些业务数据很重要,在对业务有深入理解的基础上,算法工程师能更好地做算法模型的架构,以及合适地拆分算法模块。根据我们的经验,无论是在实际工程中还是在比赛中,并非所有环节都选择用最复杂、最炫的算法模型去解决问题就是好的。
 
有着丰富金融背景的知识工程师团队负责人宫旭介绍,虽然竞赛提供的训练数据格式存在差异,且有部分标注错误,但得益于IDPS内置的数据标注平台,让大家在3天内完成了任务分配、流程管理和标注审核协作,最终高效且高质量完成了本次竞赛的数据准备工作。
 
IDPS实现了人工智能技术在落地过程中对数据标准、训练和预测的完整闭环。产品的成熟性缩短了在紧张竞赛中对模型训练和优化的时间,以优异的成绩体现了在表格抽取和文档抽取上的领先效果。
 
 达观数据算法工程师 曾彦能 代表参赛团队作报告

IDPS于2018年入选上海首批人工智能创新产品,目前IDPS已应用于万科、中信建投、中国一汽、海尔、中国移动等多家金融、地产、制造类企业。以达观数据领先的NLP技术平台为基础,IDPS结合自研OCR技术,支撑了达观RPA在更多业务场景中应用,以为企业创造更大价值。
 
CCKS相关论文

1.MethodDescription for CCKS 2019 Task 5 A 2-Phase Approach of Structural InformationExtraction:https://conference.bj.bcebos.com/ccks2019/eval/webpage/pdfs/eval_paper_5_3.pdf 2.CCKS测评任务5:基于Open CV和FasterR-CNN的金融财报抽取:https://conference.bj.bcebos.com/ccks2019/eval/webpage/pdfs/eval_paper_5_6.pdf



 相关阅读




戳原文,申请试用达观数据IDPS

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存