2018全球AI挑战赛冠军-5A黄海龙来也!
2018年12月19日,AI Challenger 2018全球AI挑战赛“中文观点型问题阅读理解”比赛中,
「来也」算法团队的黄海龙及队友获得
决赛算法第一!
现场答辩第一!
总排名第一!
“AI Challenger 2018全球AI挑战赛”年度总决赛圆满落幕,十支冠军团队从来自全球81个国家,1000多个大学和公司的过万支参赛团队中脱颖而出,获奖团队将分享超过300万的大奖。
黄海龙总决赛答辩现场
“2018全球AI挑战赛-中文观点型问题阅读理解”冠军
来也CTO胡一川全程辅导黄海龙及队友
什么是机器阅读理解?
阅读理解,学渣被同龄学霸抛弃的大杀器。不管是语文还是英语试卷,给出一篇文章,然后针对这些文章提出一些有的没的的问题,题型包括选择题、填空题、分析题、YY续集结果题等。
所谓的机器阅读理解,基本跟咱们上学时做的阅读理解题很相似,同样都是给出一段材料和问题,让“考生”给出正确答案,这里的“考生”变成了AI模型。
教会机器学会阅读理解是自然语言处理(NLP)中的核心任务之一,也是机器真正智能化的体现。要完成机器阅读理解任务,首先需要大规模机器阅读理解数据集。数据集常见的形式包括人工合成问答、完形填空式(Cloze-style queries)、选择题和问答题等方式。如:
本次比赛中文数据集
此次AI Challenger 2018对应的10个数据集均为行业最大、其中5个为行业首创。
难度升级的攻坚战— 全球AI挑战赛
本次竞赛重点针对阅读理解中较为复杂的,需要利用整篇文章中多个句子的信息进行综合才能得到正确答案的观点型问题。
数据规模包括25万训练集,3万验证集,1万测试集,以及11338种答案。
其中总数据的95%推理式选项,5%抽取式选项,需要从原文中抽取词或短语作为候选答案,文档毫无结构,这对各位选手来说是个不小的挑战。
BERT技术支撑年轻新创意
算法创新性
数据创新性:探索候选答案集合嵌入建模的最佳方式,借鉴自然语言推理NLI有效解决问题。
模型创新性:在Multiway Attention和R-Net模型启发下,设计更为合理的模型结构。
前沿研究追踪:利用业界最新的预训练(BERT)等技术进行篇章和问题表示。
算法扩展性
领域迁移能力:针对完全相同的阅读理解任务,模型具备领域迁移能力。
任务适应能力:针对不完全相同的阅读理解任务,模型易于扩展使用。
任务迁移能力:针对其他类似的文本关系建模任务,模型易于扩展使用。
算法实用性
模型可靠性:模型准确率较高(线上评测第一),所给答案精准可靠。
模型适用性:面对开放式领域阅读理解问答,应用面广泛。
模型嵌入性:模型可轻松嵌入已有的对话系统(「来也」的“吾来对话机器人平台”),提高回答质量,优化用户体验。
AI Challenger目前已成为国内规模最大的科研数据集平台、最大非商业化和最关注前沿科研与产业实践相结合的竞赛平台,也是2018年度中国超高准的AI竞赛。
这是一个年轻的战场,也许AI并不是这个时代的主角,而那个让AI更智能的你,才是。