四两拨千斤!AI大牛周明率澜舟团队刷新CLUE新纪录,轻量化模型孟子一鸣惊人
The following article is from 量子位 Author 关注前沿科技
雷刚 发自 凹非寺
量子位 报道 | 公众号 QbitAI
轻量化模型孟子?
1) 坚持“小而精”的轻量化训练策略。实现在同等模型规模下,远超公开模型的性能。作为精巧的小模型,对标“巨无霸”,小模型性能超越千亿规模模型。
2)使用知识图谱增强模型,让 AI 真正获得知识。孟子模型具备顶尖的语言理解能力,在权威CLUE中文理解评测的总排行榜,以及分类排行榜和阅读理解排行榜均位列第一,刷新三项榜单世界纪录。总排行榜分数突破84分,逼近人类基准分数(85.61)。
3)灵活的领域和场景适应能力,方便快速定制和应用。基于T5-style的端到端生成的训练范式,同步适配BERT-style的判定式架构,既能理解也能生成。便于适配行业应用,覆盖广泛业务场景。
原理方法和应用?
1) 模型结构方面,将语义角色、词性标注等语言学特征融合到Embedding表示中,基于句法约束引入注意力机制中,从而提升模型对语言学知识的建模能力。
2) 训练策略上,引入基于实体知识和Discourse的Mask机制,强化模型对语言成分和语篇关系的表征。
3) 为进一步提高训练效率,使用了大模型蒸馏和初始化小模型策略。
4) 为更好地将孟子模型适应垂直领域如金融、营销,使用了领域数据继续训练并构造相应的提示模版(Prompt),取得了明显的性能提升。
△孟子轻量化模型算法策略
1) 数据增强:使用领域相关数据;
2) 知识蒸馏:基于Teacher-Student自蒸馏提升训练效率;
3) 迁移训练:结合课程学习的思想,由易到难训练下游模型;
4) 训练优化:使用多种训练目标,多角度提升模型能力;
1) 通过大规模的泛金融领域语料,将通用孟子模型迁移到金融领域。金融版孟子模型已经应用于多个金融行业的合作企业,在金融知识图谱搭建、脱水研报、公告抽取等多个任务上获得了出色的表现。
2) 通过大规模的营销领域语料,将孟子模型迁移到数字营销领域,完成了营销文案生成、新闻摘要等多项任务,将用于行业头部的数字营销公司和多个世界五百强企业的合作之中。
澜舟团队?
推荐阅读: