查看原文
其他

达观数据斩获CCKS中国知识图谱与语义计算大赛亚军,自动化信息抽取技术再获殊荣

文本智能处理专家 达观数据 2022-09-16
       
在刚刚结束不久的全国知识图谱与语义计算大会CCKS2019(CCKS: China Conference on Knowledge Graph and Semantic Computing)上,达观数据凭借在语义理解领域出色的技术实力,获得CCKS 2019“公众公司公告信息抽取”大赛任务亚军。获奖团队现场讲解相关赛事任务论文,同时达观数据副总裁王文广在工业论坛上与阿里巴巴、百度、华为、美团、小米、平安等科技巨头同台,分享达观数据在AI工业界的前沿创新应用。

 


全国知识图谱与语义计算大会是由中国中文信息学会定期举办的全国年度学术会议,致力于促进中国语言与知识计算领域的学术研究和产业发展,为从事相关领域理论和应用研究的学者、机构和企业提供广泛交流的平台,已名副其实成为了国内知识图谱、语义技术、语言理解和知识计算等领域最高水平学术会议。

 

01

实力测评:公众公司公告信息抽取任务亚军

 

随着金融科技的发展和全球资本市场的不断扩大,在金融领域, 每一天都有海量的数据产生, 而与之形成强烈对比的是有限的人力以及人脑所能处理信息的极限能力。因此,依靠传统的人工方式已经无法应对投研分析、风险控制、金融监管和事件关联等需求,而亟需引入新的技术来提高信息处理效率,包括大数据分析、自然语言处理、知识图谱等技术,都已经开始被积极用于金融分析和金融监管领域。
 
本次CCKS2019“公众公司公告信息抽取”任务评测的主要目标是针对公告文件中的信息抽取,该测评任务包括表格中的信息点提取和文本段落中的信息点提取两大部分。

 

达观数据算法工程师 曾彦能

 

本次比赛由达观数据联合创始人高翔带队参与,以达观数据自主研发的文档智能审阅系统(IDPS)为基础,达观数据工程师朱耀邦和曾彦能等人分别提出了基于Open CV和Faster R-CNN的财务报表抽取模型,以及一种两阶段的结构化信息抽取方法。在表格信息点提取子任务上,达观数据提出的模型方案在CCKS的测试集上达到了0.978的准确率;在文本段落信息点提取子任务中,方案最终获得0.940的F1-score。最终两项任务以0.959F1值高效斩获该任务亚军。


02

专业论文 :公告信息抽取新方法

 

本届大会共收录论文53篇,达观数据研发团队算法工程师曾彦能和朱耀邦等人的一种两阶段的结构化信息抽取方法》和《基于Open CV和Faster R-CNN的金融财报抽取》两篇论文选入其中。



其中,一种两阶段的结构化信息抽取方法,提出了一种轻量级、易于维护的结构化信息抽取方法,通过两级LSTM序列标注模型分阶段完成关键信息抽取与匹配任务,这种方法仅用几百份文档就可以获得出色的F1结果。

另一篇论文提出的基于Open CV和Faster R-CNN的表格抽取方法,既实现了对线条完整表格的精确抽取,又能较好的应对线条缺失表格。

 

论文地址:


Method Description for CCKS 2019 Task 5 A 2-Phase Approach of Structural Information Extraction:https://conference.bj.bcebos.com/ccks2019/eval/webpage/pdfs/eval_paper_5_3.pdf

 

CCKS测评任务5:基于Open CV和Faster R-CNN的金融财报抽取:https://conference.bj.bcebos.com/ccks2019/eval/webpage/pdfs/eval_paper_5_6.pdf


03深度交流 : 达观数据知识图谱行业应用实践

在大会期间,达观数据副总裁王文广受邀出席会议,在知识图谱工业论坛上进行了“知识图谱的行业应用实践”主题报告分享,和现场嘉宾观众交流达观数据在此领域的研究应用,并获热烈反响。

 

达观数据副总裁 王文广

 

王文广以人工智能发展下的关键技术展开,围绕知识图谱的构建、存储、分析计算与建模等相关技术展开,同时结合知识图谱在不同行业中的应用案例,为大家介绍了达观数据在信息抽取与智能监管、债券信息抽取、智慧信贷、银行企业级知识图谱构建等方面的研究应用。

             

知识图谱作为人工智能的重要分支技术,正快速渗透到各个行业中,尤其是在金融行业。达观数据基于不同行业业务的特点和需求,正逐步构建不同行业的知识平台,以此形成统一的常识、业务及行业知识体系,为处理文本信息自动化过程提供丰富的知识内容。
 
从“中国法研杯”司法人工智能挑战赛季军到本次的CCKS知识图谱竞赛的亚军,达观数据的技术创新能力在一次次竞赛中获得了印证。然而获奖并不是比赛的目的,通过比赛,验证目前的技术水平、从中吸收更好的建模思路,在比赛中完善技术,从而更好地为客户服务。

 

相关阅读





戳原文,申请试用达观数据产品

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存