匠心故事 |“盘古”开天记,AI落地时
预训练大模型,打开不止一种可能
一是模型要大,可以吸收海量数据;
二是网络结构要强,能够真正发挥出模型的性能;
三是要具有优秀的泛化能力,可以真正落地到各行各业的工作场景。
首先希望能够把机器视觉、NLP、语音,甚至计算机图形学的技术结合起来,形成多模态的预训练大模型,增强预训练大模型的跨领域协同落地能力。另外,AI落地中还有一个十分重要的领域是科学计算。海洋、气象、制药、能源等领域都有非常强的知识处理、科学计算需求。用AI的方法去求解科学计算问题,将带来十分巨大的价值潜力。因此,多模态与科学计算大模型,将是盘古接下来的行动方向。
比如盘古大模型的核心开发过程,就是以海量有效数据进行模型预训练,实现吸收大量数据之后模型的高度智能化。那么数据和算力从哪来,就成为了一个不可避免的问题。在盘古大模型的开发过程中,华为云和合作伙伴的多方推动,确保了所需数据和算力资源的保障到位。即便华为云拥有非常好的资源基础,在千亿参数级别的大模型面前也依旧存有不足。为此,田奇团队也尝试了与合作伙伴的紧密协作,调用一切资源来确保开发进度。比如团队同著名的鹏城实验室合作,来完成了模型训练所需算力的调用。
而在数据与知识方面,盘古大模型的开发团队经常会遇到与具体行业知识体系、数据系统的磨合问题。这在具体过程中经常出现意料之外的情况。比如一个医学数据的准确率,显然应该依赖医学专家的解答。但在具体场景中,往往医学专家的判断准确率也并不高。这类AI之外领域的情况,往往会反向影响到盘古大模型的开发。为此,盘古大模型团队需要与具体的行业专家进行反复沟通,希望把他们的知识或者直观感受,转化为计算机可量化的模型,再对训练出的结果进行协同验证。这种反复的跨领域沟通与联动,才最终可能达成关于AI的共识。
在盘古大模型开发过程中,由于时间紧张、训练难度与成本巨大,并且还是机器视觉与NLP双模型同时推动,自然也需要内部团队的“超人发挥”。田奇回忆,团队内部都叫自己“特战队员”,也就是角色需要经常互换,工作需要相互支撑,哪里缺人就要哪里顶上。一个技术专家,同时也要考虑很多产业落地、商业化方面的问题。
在盘古大模型的研发过程中,团队考虑到真实的产业场景中有大量的内容理解需求,比如客服、智能对话等等,于是给盘古大模型设计了兼顾架构,能够同时高度完成理解与生成任务。
再来看具体一些的技术差异,盘古大模型提升了复杂场景下的小样本学习能力,在小样本学习上提升了一个数量级的效率;在微调能力上,盘古有着更好的数据吸收理解能力,可以在真实行业场景中实现提升模型应用效率;再有盘古大模型集成行业知识的能力更强,其采用更灵活的模块设计,能够根据业务场景适配,提升行业知识吸收效率。
在技术创新之外,盘古大模型还是一个天然瞄准AI工业化、现实场景的项目。在立项初期,研发团队就与合作伙伴进行了一系列商业化验证,以此来确保盘古大模型走入真实产业场景中的效率和适应能力。这也是盘古大模型的一大差异,它并非为实验室而创造,而是将工业化的一面放置在更高的优先级上,是一个以商业价值驱动研发创新的“实干模式”大模型。
再有一点,盘古大模型与其他预训练大模型不同的是,团队在研发过程中始终将生态化、协同创新纳入考量。盘古大模型是一个开放、可生长的产业实体,可以在各个环节引入生态合作伙伴、高校科研团队,以及不同领域AI开发者的力量。这样确保了盘古大模型的融入产业链条、搭建生态化合作的能力。从技术化、商业化、生态化三个层面,盘古大模型都驱动预训练大模型来到了一个新的阶段,建造了一个从“作坊式AI开发”到“工业化AI开发”的转换基础。
在盘古大模型的落地进程中,也经常会出现一些“意外”的惊喜。比如在国家电网巡检案例中,由于缺陷种类复杂多样,传统的方法需要对大多数缺陷适配特定模型以满足性能需求,这样100余种缺陷就需要开发20+模型,造成模型迭代维护困难。盘古大模型创造性的提供行业预训练模型,得益于其突出的特征表达能力,能够做到一个模型适配所有缺陷,极大地提升了开发效率,同时识别效果平均提升超过18%。同时,盘古大模型还提供针对零样本的缺陷检测功能,能够快速判断新缺陷,真正贴近于巡检员能力。