达观数据携手CCF举办第五届“达观杯”自然语言处理文本分类竞赛 ,开赛报名中!
作为国内领先的智能文本处理企业,达观数据主办发起“达观杯”人工智能算法竞赛,每年一届,至今已成功举办四届。
2021年,在CCF(中国计算机学会)自然语言处理专业委员会的特别支持下,第五届“达观杯”于7月正式拉开帷幕。本届“达观杯”为自然语言处理算法竞赛,围绕“基于大规模预训练模型的风险事件标签识别”的主题展开,积极推动国内NLP技术创新,努力拓展更多应用场景。
赛题背景
在大数据和人工智能技术加持下,不同行业的新兴风险控制手段也在高速发展。但这些风险信息散落在互联网的海量资讯中,如果可以及时识别出其中的风险事件并挖掘出潜在的风险特征,就能够大幅提升识别和揭示风险的能力。风险事件以文本的形式存在,需要采用自然语言理解模型实现风险事件的高精度智能识别,其本质属于一个文本分类任务。
NLP(自然语言处理)作为人工智能领域皇冠上的“明珠”,其技术的科研创新一直精进不休。而文本分类在自然语言处理领域处于非常基础且核心的地位,目前文本分类已经广泛运用于金融、政务、银行、证券、运营商等各个行业中的多个场景中,如金融领域和政务领域的风险事件标签。
很多领域的子任务通常也转化成分类任务,完整的分类任务处理包括了分类标签体系、标注数据、算法模型等不同环节。
赛题任务
本次大赛的任务是基于一定量的风险事件标注语料和大规模无标注的资讯文本,训练模型对资讯文本包含何种风险标签进行预测。
大赛提供的数据集:风险事件分类的训练集规模是10000+,包含9个一级标签和35个二级标签;大规模无标注的文本规模是亿级,可供选手选择用来进行语言模型训练。数据性质均为新闻资讯数据,并且进行了字符编码(保留了句子划分的标点符号),文中的字符会转换成唯一的ID,ID之间使用空格进行分割。
希望选手结合当下的前沿自然语言处理和深度学习技术,提升模型的训练性能和泛化能力,深入挖掘实现风险事件标签的精准识别。
数据简介
本赛事采用了互联网的新闻和资讯数据,目标在于识别新闻资讯文本中的风险事件标签。
场景示例包括以下:
组队规则
丰厚奖励
其他奖励
比赛颁奖典礼将在CCF自然语言处理与中文计算国际会议(NLPCC)会场内举行,获奖队伍将得到中国计算机学会自然语言处理技术委员会的宣传支持,主办方将邀请最终成绩前10名队伍代表出席“NLPCC”大会。
比赛排名Top30的选手将获得达观数据全职和实习工作的面试直通机会,优先录用。
“周榜单激励”,开赛后赛中开启持续5周“周榜单”活动。
周榜活动时间:8月12日-9月16日
周榜活动规则:
初赛A榜开始后第三周开启“周榜单激励”活动,每周一公布截至上周日24点时周榜单TOP1团队信息,Top1团队即为“周冠军团队”。
经审核后,“周冠军团队”可获得价值300元的精美礼品一份,本活动每个团队最多领取2次奖品,超出则顺延至下一名次团队。奖品将在初赛结束后统一发放。
赛程安排
大赛采取线上比赛、线下颁奖的模式。选手于官方竞赛平台DataFountain报名、组队、提交作品测评。
线上比赛结束,经作品审核后,排行榜前十名的获奖团队或个人将有机会出席CCF自然语言处理与中文计算国际会议(NLPCC)交流成果并参与颁奖典礼。
赛程安排如下:
2021年7月28日
大赛启动
2021年7月28日-9月19日
初赛A榜阶段(发布赛题,选手可登录大赛官网报名参赛、提交作品,每日最多在竞赛平台提交2次作品)
2021年9月21日(00:00-24:00)
初赛B榜阶段(选手可提交2次作品,但仅以最后一次作为有效成绩,B榜于24点定时公布排名)
2021年9月22日-9月29日
代码复现、晋级资格审核
2021年9月30日
公布决赛获奖名单
2021年10月13-17日
参加颁奖典礼(具体时间另行通知)
注:如因不可抗力或其他因素影响而变更时间,组委会将在第一时间通知获奖团队。若获奖团队来自于海外,则建议进行远程分享对接
组织架构
特别支持
中国计算机学会自然语言处理专业委员会
主办单位
达观数据
官方赛事平台
DataFountain
报名参赛
大赛面向社会各界开放,欢迎全国高校大学生、科技型企业和自然语言处理爱好者登录DataFountain官网报名参赛,共同参与和研究实际业务场景下的人工智能技术问题。
报名直通车:http://navo.top/E7NrY3(复制至浏览器或戳底部原文链接报名)
同时,欢迎大家扫码加入赛事官方微信交流群,既可邀人组队,又有官方答疑哟~