其他
让机器像人一样理解,深度揭秘支小宝机器阅读理解技术
让机器像人一样学会理解并做出回答一直是 AI 走向规模化应用的大难题,相比图像、语音领域,自然语言处理领域的发展相对来说比较缓慢。究其原因,在于自然语言是高度抽象化的产物,其语义信息非常丰富,很难做到精准的理解与回应。
技术解构:“烤白薯的余温”
这个“烤白薯的余温”开始于 2020 年下半年,这半年时间除了适配业务做了很多数据训练的工作以外,支小宝技术团队也花了很多时间解决机器阅读的几大难题,具体手法有:
在做 text span 预测的时候,对多个 start-end pair 进行排序是影响最终结果的关键点,需要加入很多 rank 的逻辑和特征; 通过一些巧妙设计的长短文本的粗排和精排算法来提前召回段落,解决过长文档信息冗余,过短文档信息信息不足的问题; 数据集噪声的干扰,通过一些增强鲁棒性的训练方法来解决,如文本对抗训练; 数据方面,因为比赛的数据集体量较小,所以尝试了多种语料增广方法包括回译、EDA、CMRC 和 DRCD 数据集增量训练等; 另外还引入 pretrained embedding 作为整个模型的底座,以及 automl 来调整模型结构和超参搜索。
此外,由于支小宝所在的金融领域对合规、安全性要求高,这种行业特性也对机器阅读理解技术带来了不一样的挑战。支小宝技术团队在训练机器阅读理解的过程中,在输入的部分选择的都是专业的财经资料,输出部分的内容在上线之前也会有合规、审核的团队去把关,确保交付给用户的部分都能合规、安全并且符合时效性。
董扬介绍道,支小宝是一个需求模糊、供给有限的产品,早期的支小宝知识库非常有限,采用的也都是专家撰写的方式,因为金融行业场景的专业性及合规方面的要求,专家人工撰写知识库的周期相对较长,每个月从生产、审核到上线只能产出百余条的数量级。
而另一方面,支小宝的庞大用户体量导致当用户问及理财、保险问题时,早期的支小宝无法很好地回答。再加上金融行业的知识点并非静态存在,如果纯靠人工专家产出知识库,其生产效率和时效性都不能满足业务的需求。
在这样的业务痛点之下,支小宝技术团队通过机器阅读理解技术,在给模型投喂大量文章和用户实时性问题的同时,训练其提出相应的答案,交给专家审核,在大大提升效率的同时,线上用户也感觉到了支小宝变聪明了。
相比于同类型技术,除了上文提到的机器阅读本身难题的创新解法,支小宝技术团队还在人机协同方面有显著的创新成果。通过利用算法挖掘用户和理财师的“人人对话”场景,可以自动生成“人机对话”的剧本,把人人对话场景的经验移植到人机场景之下,使得机器人也可以承接更多人人对话的需求,扩大了应用范围。
陆鑫表示,目前支小宝的技术团队规模在30人左右,其中有一半是算法的同学,除了NLP、对话理解等重点方向,其他头部的算法支小宝团队都会有参与并产出相关论文。团队此前的公司和学历背景方面,可以说远高于业界的一些技术团队综合水平,其中清北学历、海外高校背景比比皆是,博士比例占到30%,985硕士占比在95%以上。
也正是这样对热爱学习、热爱技术的团队,才做出了这样受用户喜爱、受权威榜单认可的成绩。
未来:与业务深度耦合,开放迎接更多挑战
目前机器阅读理解技术在支小宝业务场景中得到了广泛的应用,其已经产出了一万多个知识点,覆盖了超过300个产品,用户的直观感受就是支小宝变聪明了,也实现了支小宝团队对用户“有问必答,有答必对”的价值。
一方面,继续发展机器阅读里沉淀的语义推理、数值推理、常识推理等推理能力,并结合多轮对话 context 增强 query 的表征,进行进一步的在线深层语义理解,这个工作目前已经在开展,并且取得一些进展。
另一方面,支小宝也在建设更大规模的低资源跨文档的机器阅读和知识提取能力,打破常规的机器阅读模型在实际业务落地过程中对数据集的大小限制,在业务中发挥更大的作用。