其他
效果超强!基于Prompt Learning、检索思路实现文本分类,开源数据增强、可信增强技术
方案全覆盖:涵盖文本分类高频场景,开源微调、提示学习、基于语义索引多种分类技术方案,满足不同文本分类落地需求;
模型高效调优:强强结合数据增强能力与可信增强技术,解决脏数据、标注数据欠缺、数据不平衡等问题,大幅提升模型效果;
产业级全流程:打通数据标注-模型训练-模型调优-模型压缩-预测部署全流程,助力开发者简单高效地完成文本分类任务。
▎方案一:预训练模型微调
文心ERNIE 1.0-Large-zh-CW(24L1024H)
文心ERNIE 3.0-Xbase-zh(20L1024H)
文心ERNIE 2.0-Base-zh(12L768H)
文心ERNIE 3.0-Base(12L768H)
文心ERNIE 3.0-Medium(6L768H)
文心ERNIE 3.0-Mini(6L384H)
文心ERNIE 3.0-Micro(4L384H)
文心ERNIE 3.0-Nano(4L312H)
······
▎方案三:语义索引
特色二 模型高效调优
基于 TrustAI 中可信增强方法挖掘待预测数据中缺乏训练集数据支持的数据(稀疏数据),然后使用特征相似度方法选择能够提供证据支持的训练数据进行数据增强,或选择能够提供证据支持的未标注数据进行数据标注,这两种稀疏数据筛选策略均能有效提升模型表现。
▎策略二:脏数据清洗
基于 TrustAI 的可信增强能力,采用表示点方法(Representer Point)计算训练数据对模型的影响分数,分数高的训练数据表明对模型影响大,这些数据有较大概率为脏数据(被错误标注的样本)。脏数据清洗策略通过高效识别训练集中脏数据,有效降低人力检查成本。
我们在多分类、多标签、层次分类场景中评测脏数据清洗策略,实验表明脏数据清洗策略对文本分类任务有显著提升效果。
▎策略三:数据增强
PaddleNLP 内置数据增强 API,支持词替换、词删除、词插入、词置换、基于上下文生成词(MLM 预测)、TF-IDF 等多种数据增强策略,只需一行命令即可实现数据集增强扩充。我们在某分类数据集(500条)中测评多种数据增强 策略,实验表明在数据量较少的情况下,数据增强策略能够增加数据集多样性,提升模型效果。
特色三 产业级全流程
文本分类应用提供了简单易用的数据标注-模型训练-模型调优-模型压缩-预测部署全流程方案,方案流程如下图所示。
开发者仅需输入指定格式的数据,一行命令即可开启文本分类训练。对于训练结果不理想情况,分析模块提供了多种模型调优方案,解决文本分类数据难题。
对于模型部署上线要进一步压缩模型体积的需求,文本分类应用接入 PaddleNLP 模型压缩 API 。采用了 DynaBERT 中宽度自适应裁剪策略,对预训练模型多头注意力机制中的头(Head)进行重要性排序,保证更重要的头(Head)不容易被裁掉,然后用原模型作为蒸馏过程中的教师模型,宽度更小的模型作为学生模型,蒸馏得到的学生模型就是我们裁剪得到的模型。实验表明模型裁剪能够有效缩小模型体积、减少内存占用、提升推理速度。此外,模型裁剪去掉了部分冗余参数的扰动,增加了模型的泛化能力,在部分任务中预测精度得到提高。通过模型裁剪,我们得到了更快、更准的模型!
完成模型训练和裁剪后,开发者可以根据需求选择是否进行低精度(FP16/INT8)加速,快速高效实现模型离线或服务化部署。
欢迎扫码加入案例落地分享课程⬇️
9月21日,飞桨开发者刘积斌将分享智慧城市业务中上报事件工单分类的技术方案,详细讲解如何使用语义检索技术实现多层次分类任务。除工单分类外,还将带来工单推荐、合并、企业政策匹配、企业简历匹配等实践案例。欢迎扫码加入课程。
扫码还可获得文本分类常用数据集、PaddleNLP 学习大礼包等超多福利!
⬇️PaddleNLP 项目地址:https://github.com/PaddlePaddle/PaddleNLP