第四届达观杯 x CCKS技术评测大赛圆满收官,激发知识图谱实践创新思路
近日,第四届“达观杯”携手国内年度学术大会CCKS举办的技术测评大赛完美收官。本次大赛由中国中文信息学会语言与知识计算专业委员会主办,达观数据与同济大学联合组织。经过几个月的激烈角逐,实力卓群的国家电网旗下国网信通产业集团从几千名参赛选手中脱颖而出荣获冠军,并在第十四届全国知识图谱与语义计算大会(CCKS-2020)上进行方案分享,达观数据副总裁王文广为冠军团队颁发奖项。
达观数据副总裁王文广(右一)为冠军团队国网信通产业集团代表(左一、二)颁奖
自2017年以来,由达观数据主办的“达观杯”系列算法大赛至今已经举办四届,在全国范围内引起极大关注,目前已成为国内语义理解领域规模最大的算法竞赛之一。从第一届的“个性化推荐”为赛题,第二届“文本分类”;第三届文本智能信息抽取”,到第四届与CCKS联合举办的“基于本体的金融知识图谱自动化构建技术评测”,达观数据持续通过在技术与应用场景之间搭建互通的桥梁,让优秀的技术在解决实际问题中发挥最大价值。
本次大赛冠军团队国网信通产业集团代表分享了其在评测任务中的方案与思路。在整体过程中采用重构研报上下文、反向标注及校正、实体抽取、属性&关系抽取的四个过程。其在分享中介绍,常用实体关系抽取模型有实体抽取+关系分类的Pipeline模型、联合抽取实体关系的joint模型。在本场景下种子实体关系数量偏少,基于经验,实体抽取模型准确度较高,故团队计划采用改进标记、后接Beam Search解码的关系抽取方案。
2019年,达观数据以自主研发的文档智能审阅系统为基础参与“公众公司公告信息抽取”测评大赛,达观数据技术团队提出的基于Open CV和Faster R-CNN的财务报表抽取模型,以及一种两阶段的结构化信息抽取方法,在表格信息点提取和文本段落信息点提取任务上,分别达到了0.978的准确率和0.940的F1-score。最终两项子任务以0.959F1值高效斩获亚军。
成都站重磅活动,点击图片了解活动详情