其他
文本预训练模型在信息安全场景的探索和实践
导读
本文介绍文本预训练模型在信息安全场景的一些探索和实践,主要聚焦于对话文本分类。信息安全场景种类繁多,其中一项具体业务是对用户提交的举报内容进行审核,判断被举报对象是否有违规问题。用户提交的举报材料有多种形式,而双方沟通的文字对话记录是一项关键证据。少量的对话文本可以通过人工的方式进行审核,而更大量、更快速的识别还需要借助算法。
背景
TextCNN
RoBERTa
RoBERTa-58Dialog
58Dialog-mini
总结与展望
基础模型层面,尝试ALBERT[8]、ELECTRA[9]等更多类型的预训练模型; DAPT+TAPT阶段,尝试添加更多、更高质量的数据,目前来看这部分潜力还未挖掘完全; 知识蒸馏阶段,尝试优化训练目标、调整模型结构、选择多种初始化方式等,尽可能保留模型业务精度的同时加快模型推理速度。
参考文献:
福利环节
为了鼓励优质内容传播,【58技术】公众号近期会持续推出不定期活动奖励。
评论区互动留言,即可参与此次活动
留言转发集赞,点赞量前三名(点赞数需大于10)可获得定制版新年代码台历一本
活动时间:截至2021年1月20日