京东言犀斩获离散推理型阅读理解DROP冠军 挑战更高难度人机对话
3月10日,京东发布了2021年第四季度及全年业绩,作为新型实体企业,京东自2017年全面向技术转型以来,5年间京东体系在基础科学和技术研发的投入已近800亿元,京东的技术投入也取得了诸多成果。近日,在由Allen AI研究院发起的离散推理型阅读理解榜单DROP上,京东智能客服言犀团队提出的NR-Rino模型以90.26%的准确率登顶DROP Leaderboard冠军,进一步拉近了机器与人类在该任务上的水平差距。
DROP榜单是一个国际著名的评测任务,主要用于测试计算机在语言理解中的数学推理能力。不同于许多单轮问答,离散推理型阅读理解数据集DROP要求模型在语义理解的基础上,具备数值推理能力。因此,本次DROP数据集任务也吸引了国际众多参赛队伍,包括Google Research、中国平安、腾讯等多个顶级机构。
DROP数据集(图2)的难点在于问题的答案无法通过直接与文章匹配得到,需要结合不同位置的数字及其上下文表示,来进行推理得出。例如,图2中的减法示例,模型通过给定的提问,首先判断“Untitled(1981)”这幅画被售卖了“$16.3 million”,然后与“estimation(预估价格)12 million”做比较,最后得出“more dollars(溢价)”为“4300000(16.3 million-12 million)”。此外,加法、排序、统计等符号运算对模型的综合推理能力也是极大的挑战。
京东言犀团队提出了NR-Rino模型,主要是对基于多头预测器方法进行创新和改进,NR-Rino采用了编码层、数字推理层、预测层的三级结构,基本框架如图3所示。
图3 NR-Rino模型结构
京东科技集团高级技术总监吴友政表示,“NR-Rino在编码层我们使用了预训练语言模型ALBERT.xxlarge,用于编码输入的文档和问题,以得到相应的语义表征;在推理层,NR-Rino的推理层为多层Transformer,考虑每个数字在context中的position信息,提高对数字与context之间的相关性建模;在预测层,对token的表征做了多种融合以得到不同粒度的表征(number表征、passage表征、question表征等)来指导最终的预测。”
除了模型结构的优化外,NR-Rino还进行了训练优化,以充分利用预训练语言模型中蕴含的知识,包括对模型参数的正则化约束和Dropout正则化。
未来言犀将进一步推动离散推理型阅读理解的发展,包括涉及背景知识的数字推理、复杂数字推理等问题。包括NR-Rino模型在内的AI能力也将广泛应用于京东零售、京东物流、京东健康,以及外部金融、政务、泛互的行业,涉及数字分析、金融报告分析、体育数据分析,智能交互RPA等环节,进一步提升智能人机交互的能力,推动实体经济发展。
更多了解