追一科技发布RoFormerV2模型,大幅降低NLP应用门槛
最近,追一科技发布了RoFormerV2模型,凭借追一独创的旋转位置编码技术(RoPE),全面超越了BERT、RoBERTa、Albert、Electra等当前的主流预训练模型。
在权威的中文NLP(自然语言处理)测试榜单CLUE上,RoFormerV2以仅3亿的参数量,超过了若干10亿+参数量的模型进入榜单前5名(截止2022年3月21日),同时它也是榜上前5名中参数量最少的模型,基本实现了同一尺度下的模型最优解。
注:上图中第一名为人类水平,追一RoFormerV2 large参数量3亿,BERT参数量10亿,Mengzi参数量10亿,ShenZhou参数量100亿,SheenNonG参数量10亿
革命性旋转位置编码技术(RoPE),广受业界认可
RoFormerV2采用了追一独创的旋转位置编码(RoPE)技术,完全不同于主流的BERT、RoBERTa、Albert、Electra所使用的方法,这让RoFormerV2与这些模型在效果上拉开差距。
RoFormerV2与各模型的比较
旋转位置编码(RoPE)技术是追一在2021年提出,利用向量之间的旋转角度来表示特征之间的相对关系,这一思路不同于此前所有的方法,知名的技术极客组织EleutherAI认为RoPE是“革命性”的,具有开创式意义。Google在今年提出的FLASH模型论文中则明确指出RoPE对模型的效果有明显的提升作用,并将其作为模型的默认方法。
EleutherAI关于RoPE的文章
Google FLASH论文中表明RoPE对效果有显著提升
同时,RoPE还被用在了许多最新的模型当中,例如EleutherAI新发布的60亿和200亿参数的GPT模型中就用了RoPE位置编码。
而Google最近大火的5400亿参数的PaLM模型中也采用了追一的RoPE技术,PaLM是一个支持多语种、多任务形式的超大型模型,它不仅可以理解人类语言,还可以理解机器代码。PaLM在上百个自然语言理解与自然语言生成任务上测试,并在大多数任务上取得了最优效果。这些最新方法都采用了RoPE的设计,进一步验证了它的优越性,使之有望成为预训练模型的标准方法。
PaLM的论文中表明RoPE的有效性
这次的RoFormerV2除了使用了RoPE以外,在训练方式上还采用了多阶段预训练方式,在第一阶段中用大量的无监督语料进行训练;而在后续的阶段中则用了众多不同领域、不同任务形式的有标注数据进行监督式预训练。通过不同的阶段切换,让模型在大量数据上先对语言进行“广泛但粗浅地掌握”,再对语言进行“精确且深入地掌握”。模型将在第一阶段当中学习语法结构、词语搭配等基本的知识,而在第二阶段中则重点针对语义进行学习,例如同义句、反义句、常识、问答、成语等等内容。同时RoFormerV2还对模型结构进行了调整,精简了模型结构与计算复杂度,以提升模型的效率。
大幅降低NLP应用门槛
RoFormerV2不仅在效果上取得了优秀的成绩,更能极大降低应用的门槛。在将技术落地变为实际应用的过程中,通常需要考虑的不仅仅是“技术所能达到的极限”,还包括“应用所需要的成本”。面对不同客户的不同资源限制,一个切实可落地的方案才更具有实际意义。而RoFormerV2使用的新的模型结构与训练方式,让它在同体量模型中获得最好效果的同时,超越了一些体量更大的模型。并且对比与同体量的模型,RoFormerV2可以获得最高30%的速度提升。
从应用的角度来说,RoFormerV2体型更轻量,速度更快的优势,就代表着更加低的成本投入与运营消耗,为用户带来的是可用性强、低成计算成本并且效果优秀的解决方案。
目前RoFormerV2已被应用于追一科技的Adal对话分析平台中,作为底层的文本编码模型,支持包括信息抽取、文本检索、文本聚类、话术流程挖掘等应用功能。
随着“大模型”时代的来临,许多用户希望用优秀的模型来解决实际问题,但这些“庞然大物”所需要的硬件配置、高额投入,让人望而却步。同时, 利用“大模型”进行NLP技术实验研究,所需要的算力与时间成本越来越高。不管是NLP技术研究还是应用实践,追一科技都一直致力于开放、开源生态的参与、建设,助力用户和开发者创新研究。
RoFormerV2作为同体量效果最好的预训练模型,可以在有限的机器资源下进行训练与微调并获得超越体型更大的模型的效果,因此我们将其开源供大家进行研究使用,为推动中文NLP发展继续贡献一份力量。
延伸阅读