查看原文
其他

直播回顾 | 58同城AI算法大赛颁奖典礼+解题方案分享

58AILab 2022-03-15

The following article is from 58技术 Author 58技术



以人工智能技术为核心的智能客服近年来被广泛应用,它不仅能给用户提供高效和个性化的客户服务体验,还可以为企业节省大量客服人力成本。智能客服的本质是充分理解用户的意图,在知识库中精确查找与之相匹配的内容,自动回答用户的问题。文本匹配、分类是智能客服里最核心的技术,同时也是自然语言理解领域中的核心问题之一。


58同城2017年就打造了智能客服系统,近几年一直专注于人工智能技术的优化和应用场景的拓展,目前智能客服已被广泛应用在客户服务、售前导购等场景,为公司提高了人效并增加了收益。


58技术委员会联合人力资源部神奇学院举办了58同城首届AI算法大赛,提供了一批58智能客服实际场景中的数据,跟参赛者一起探讨文本分类、匹配问题。本次大赛历时50天,共有158支队伍参赛,吸引了国内60所高校的在校学生以及30家知名企业的技术人员,最终比赛角逐出了十强团队。


AI算法大赛十强团队


2020年9月16日16:00-18:00,我们举办了颁奖典礼直播,并邀请了优胜者分享了各自的解题方案。


颁奖典礼由58同城人力资源部神奇学院技术培训负责人袁媛主持,首先邀请了58同城副总裁、技术委员会主席王少峰进行致辞。

58同城AI Lab承担了此次大赛的出题工作,58同城AI Lab负责人、技术委员会AI分会主席詹坤林进行了赛题介绍。

58同城高级总监、技术委员会专业发展组组长张鹏进行了颁奖。

大赛设置了一等奖1名(奖金25000元),二等奖2名(奖金10000元),三等奖3名(奖金5000元),排名前六的在校生团队可获得奖金,并且团队内每位成员均获得了一座奖杯和一份荣誉证书,十强战队中其他战队的每位成员均获得了一份荣誉证书。


荣誉证书

奖杯

颁奖过后,邀请了十强参赛代表发言。

最后,第一名、第二名、第三名和第五名战队代表进行了解题方案分享,下面是视频录像和PPT文件,各位技术大拿们敬请享用。

live 1
基于BERT的文本分类方案荣获第一名的【OUCERS】战队队长崔子元(中国海洋大学在读博士)分享了《基于BERT的文本分类方案》。崔子元分享到:“针对赛题,我们有两种思路,一是将其作为文本相似度的任务处理,二是作为分类任务处理。这两种思路对应bert模型的两种下游任务模式,前者对应Sentence Pair Classification Task, 这种模式下模型接收一个Sentence pair作为输入,如果这两个句子判定为相似那么输出的标签为1,判断为不相似输出为0,使用这种方法存在一个较大的问题就是如何选择样本,官方公布的训练数据里只有扩展问题和对应的标准问题ID,与此任务所需的输入不一致,因此需要将train_data和std_data中的问题结合起来。train_data种的样本数量为25万,std_data中标准问题的数量为861,如果将train_data中的每一个扩展问题都对应std_data中的每一个标准问题生成sentence pair的话样本数量会达到2亿,这个样本量已经超过了我们的算力所能处理的规模,另外一个比较关键的问题是,在这2亿数据中只有861分之一的样本标签是1,样本严重不均衡。分类任务对应Single Sentence Classification Task, 在这种模式下模型接收一个Sentence 作为输入,输出是Sentence 的类别标签,这里我们将std_data中标准问题的std_id作为标签输入,但这样存在的问题是标准问题本身并没有参与到微调过程,我们认为这些标准问题对应的embedding在向量空间中非常接近每个类的中心,因此就微调过程而言这些标准问题对于类别的界定极为重要。最终我们采取的方法是将stddata中的标准问题加入到traindata中,并这些标准问题设定一个更高的权重,生成新的训练数据,使用这个新的训练数据对预训练模型进行微调。我们对模型的调整主要有两处,第一处是对预训练阶段的调整,我们认为在本次比赛设定的场景中,每一个问题,无论是标准问题还是扩展问题,都是一个语义完整的序列,这些序列之间是相互独立的,不存在前后关系,因此在预训练阶段我们取消了nsp任务,只进行mlm任务,首先是将预训练阶段的totalloss改为mlm的loss,而这个totalloss原本是mlm+nsp的loss。然后是在模型中将直接将nsp的next_sentence_accuracy和next_sentence_loss都去掉。第二处调整是在微调阶段,我们定义了一个新的processor,这个processor从std_data中读入std_id作为标签,读入训练数据中的问题本体作为text_a,读入问题对应的std_id作为text_a对应的标签,text_b设为none。”

视频回顾


PPT下载
关注“58技术”公众号——关于我们——添加小秘书微信,备注“AI算法大赛PPT”即可获取。
live 2
面向类别不平衡文本分类任务的解决方案荣获第二名的【在线被大佬带躺】战队队长江山(西安交通大学在读硕士)分享了《面向类别不平衡文本分类任务的解决方案》,在线被大佬带躺战队的解题方案为:采用文本分类处理思路,首先在预训练文本集上进行bert和electra模型的预训练,针对数据集类别不平衡的问题,采用focal loss与f1 score作为融合损失函数,提高模型对难分类样本的识别能力,实现对类别不平衡数据集的全局识别能力。
视频回顾

PPT下载
关注“58技术”公众号——关于我们——添加小秘书微信,备注“AI算法大赛PPT”即可获取。
live 3
快速高效的预训练模型-electra

荣获第三名的【菜鸟的战队】队长刘一博(哈尔滨工业大学在读硕士)分享了《快速高效的预训练模型electra》,菜鸟的战队尝试了多种方法:

(1)文本分类方法:首先使用科大讯飞开源的ELECTRA在预训练语料上预训练出一个模型,然后finetune一个861类别的分类模型。

(2)文本匹配方法:利用标准问题和扩展问题构建文本匹配的数据集,训练出一个文本匹配模型,预测测试集中文本与哪个扩展问题最接近。

(3)先文本分类再文本匹配:用electra模型finetune一个34个领域类别的分类模型,基于同一个领域内的数据集训练出文本匹配模型,先用分类模型预测测试样本属于哪个领域类别,然后再将测试样本和同一领域下的扩展文本一一匹配,取匹配模型预测分数最高的结果。

视频回顾

PPT下载
关注“58技术”公众号——关于我们——添加小秘书微信,备注“AI算法大赛PPT”即可获取。
live 4
多模型融合文本匹配方案荣获第五名的【新手上路】战队队长王鸿霖(沈阳理工大学在读本科生)分享了《多模型融合文本匹配方案》,新手上路战队融合文本分类(如SPTM、ELMo等预训练模型)、文本相似度匹配(如DSSM、Bi-LSTM)、Seq2Seq文本生成匹配等多种模型,获得了比单个模型更优的效果。
视频回顾

PPT下载
关注“58技术”公众号——关于我们——添加小秘书微信,备注“AI算法大赛PPT”即可获取。

欢迎大家继续打榜
为了便于大家继续学习和演练技术,我们重新开启了比赛结果提交入口和AB榜单,并且将一直开放,欢迎大家继续提交结果冲击榜单,详细可访问 tech.58.com
欢迎添加58技术小秘书微信号(jishu-58),58技术小秘书将提供各类咨询。

推荐阅读:
58同城AI算法大赛开放报名,欢迎参赛
58同城AI算法大赛最新动态,欢迎关注
使用qa_match开源工具完成58同城AI算法大赛

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存