查看原文
其他

「姜子牙」大模型背后,一个专业 AI 团队的进化

幸芙 极客公园 2023-08-10

「未来 AI 就是模型的天下,多么重视模型都不为过。」

作者 | 幸芙
编辑 | 靖宇
自 1956 年科学家研发出第一个「西洋跳棋」AI 程序算起,AI 至今已经发展了近 70 年。期间经历几次潮起潮落,但一条主线却贯穿其中:那就是「模型化」——「模型」在 AI 中的占比越来越高。这一趋势在大语言模型 ChatGPT 出现后达到顶峰。
「我们坚信未来 AI 就是模型的天下,多么重视模型都不为过。」
7 月 22 日,在极客公园主办的 AGI  Playground 大会上,IDEA(粤港澳大湾区数字经济)研究院认知计算与自然语言讲席科学家张家兴说道。
2021 年,张家兴就带领 IDEA研究院CCNL封神榜团队创建了最大的中文开源预训练模型体系「封神榜」,是模型「先行者」。他们见证了大模型带来的「范式转移」。
张家兴认为,这场转移包括两个关键词,「消失」和「形成」。「消失」是指,随着ChatGPT通用大模型到来,过去做信息抽取、问答、文本输出等特定类型的模型在消失。「形成」是指,大模型背后考验工程化的能力,会形成从模型诞生到微调到落地的新生态位
IDEA 研究院CCNL也正在新生态位中布局。
除了研发全能力模型之外——目前,封神榜团队基于 LLaMa,生成了「姜子牙」(Ziya)通用大模型,已经应用于数字人、文案写作等场景。约一个月前,他们还训练出了一系列的专家模型,如多模态模型、代码模型、写作模型、对话模型等。后者可以帮用户写文章、新媒体文案、直播脚本、宣传海报、甚至网文小说等。
张家兴认为,在这个庞大的生态系统中,创业者可以结合自身特长思考要占据生态位的什么位置。「任何有志于投身到大模型领域的人,都可以从中找到自己的位置。」他说。
以下是张家兴在 AGI Playground 大会上的演讲全文,经极客公园节选整理:
在极客公园主办的 AGI  Playground 大会上,张家兴发表演讲

01

大模型时代:

新范式和新生态


今年我们言必称大模型的时候,言必称 AGI 的时候,我们总会把大模型这件事情认为是 AI 中理所当然的。往前推,即使我们推到 1997 年非常重要的一件事情是「深蓝」击败「卡斯帕罗夫」。即使那样的 AI 系统里面也没有一个深度学习模型。
整个 AI 发展历程始于 1956 年,至今已有 70 年。虽然 AI 经历了几次潮起潮落,我们可以发现 AI 发展一直沿着一条线进行,这就是 AI 的模型化进程——模型在 AI 中所占的比重越来越强。今天我们坚信,未来 AI 就是模型的天下,我们多么重视模型都不为过
张家兴讲述 AI 的「模型化」过程
我们都说这次大模型是「技术范式」的变化,用两个关键词概括就是,「消失」和「形成」。
「消失」指的是类型的消失。半年前,整个 AI 领域充斥着各种不同类型的 AI 结构和任务。比如在结构上,有 BERT、T5 等各种模型结构。比如在任务上,有分类、信息抽取、写摘要、问答等各种任务。然而,随着通用大模型时代的到来,这些多样性正在消失。
现在,唯一的模型结构是 GPT,唯一的任务是文本输入和文本输出。所以曾经的 AI 概念,如句化分析、关键词等概念,都逐渐都淡出我们的视野了。而且,今天模型的用途已不再由技术提供方决定,而是由使用的客户自行决定。
而「形成」指的是生产链的形成。一个模型的构建需要投入巨大的资源,几乎没有人能够独自从头到尾完成这项任务。它需要一个庞大的团队,背后很大的算力支持下才能打磨出来。从模型的最初构想,到中间各种阶段的微调,再到最后的落地实践,这构成了一个完整的生产链。
从「消失」和「形成」,可以看到大模型的「范式转移」。有时候,技术的进步就是无情的,不受个人意志的左右,新的技术范式将代替老的技术范式。
那么,大模型作为这项新的技术范式,到底有什么价值呢?在我看来,它带来了四个全新的价值:
全新的理解能力
在自然语言理解方面,当下的大模型远超过之前所有的模型。它仿佛真的了解我们每句话的意思。尽管回答可能不完全准确,但呈现出了全新的理解能力。
全新的工具
它既是提效的工具,能把人从繁重的劳动中解放出来。它也是创造性工具,能创造出人创造不出来的东西。例如,去年 Diffusion Model 展示出的文生图能力。
新界面
曾经,我们必须通过编写程序来访问数据和 API,而现在,似乎不再需要编写繁琐的代码,只需用自然语言描述,大模型就能自动生成代码。
新引擎
大模型不仅仅是单一点能力,它可以作为引擎,驱动信息检索、对话生成、甚至创造故事等工作。
大模型还带来了全新的生态,这就是如何跟产业结合落地的问题。
我们认为大模型不仅仅是普通的 API,或者不可改变的模型。我们强调上游公司生产模型之后,下游客户要进行进一步的训练,跑完最后一公里。这样,模型就能嵌入到每个客户自己的场景中。当模型表现得越好,收集的数据就越多,又会反过来加强模型。这样能够真正推动整个产业的发展。
在这个新生态中,最上游是做基底模型的公司,基底模型往下有许多团队,会专注于特定能力或领域的模型。继续往下,就是与解决方案公司、云厂家和硬件厂家合作,创造各种各样的产品,最终服务于落地的企业和政府。
张家兴描述的大模型新生态
从基底模型到真正的落地,这涉及了非常多的环节和链路,也孕育了许多新的生态位。我觉得,每个人都可以结合自己的特长,思考在这个生态系统中要占据哪些位置。其实任何有志于投身到大模型领域的人,都可以从中找到自己的位置。


02

「姜子牙」大模型背后



我们团队已经成立两年,从我们过往的经历中,可以很清楚地看到这种范式变化对我们造成的影响。
一直到去年年底,我们都是开发大量的开源模型,做不同的模型结构和任务类型。仅在一年的时间里,我们就开源了 98 个模型,创下了中文领域的开源纪录。
然而,去年年底,文生图的模型作为一款爆品突然出现了。于是我们开始转向,做了中文第一个开源的 Stable Diffusion 模型,我们称为「太乙」模型。我们希望能跟上大模型的技术范式变化。
到了当下通用大模型时代,我们团队正在加班加点干的事情是,为中文训练最好的开源基底大模型。这就是大家都知道的 LLaMA2。我们训练了 20B 的 token,相较于之前训练的「ziya-LLaMA-13B」模型,训练速度提高了 38%,彻底解决了训练过程中不稳定「训飞」(训练异常)的问题。
训练 20B token 之后,LLaMA2 解决了训练过程中不稳定的「训飞」问题
这个模型我们训练出来之后将会完全开源,而且不会有任何商业应用上的限制。同时,我们承诺会对这个模型进行持续的训练,希望为整个大模型社区提供一个最好的开源可商用模型的基底。
在当前的技术范式下,今年推出的 ChatGPT 令许多人兴奋不已,说通用大模型将颠覆各行各业。然而,随着时间的推移,我们冷静下来发现,大模型其实只是对现有场景的净化和优化。因此,我们认识到在垂直行业、领域和能力上,仍然有许多大模型应用的可能性和机会存在。
所以大概一个月前,我们团队生产了一系列专家模型,比如多模态模型、代码模型、写作模型、对话模型等。其中许多都已经发布,并达到了领域内最优秀的水平。
我们最近刚刚开源了中文协作模型,称为「子牙 writing」。我们希望这个模型能够成为一个开箱即用的小助手,为企业和个人提供提效的支持。例如,政府人员可以让子牙 writing 帮助写灾害情况的汇报,或者写领导在开幕式上的致辞,因为它能非常符合政策报告的风格。
另外,它还可以让中文社区的创作者、运营人员和营销人员从中解放出来,帮助写各种类型的文章、文案、软文,甚至可以创作优秀的短篇小说,甚至一篇古代修仙玄幻的网文小说。我们可以看到,它不管是在章节结构逻辑性、还是故事情节上,都有一个非常好的表现。
我们还开发了一个检索包,只使用了一个亿的参数。它在法律和金融领域的效果都要优于目前的一些解决方案,甚至比目前开源最好的向量模型还要好。我们的工具包也可以成为金融行业的小助手,为研究员和分析师提供帮助。
我们为什么可以生产出这么多高质量模型?
背后是我们的许多积累,包括三阶段的训练系统(预训练 PT、有监督微调 SFT、人类反馈学习 RLHF),包括积累的大量高质量数据、自研的一些算法、以及把它沉淀到我们的训练系统中。
我们的每一个模型都同时支持开源和商业版,并授权我们的伙伴进行训练和微调,让他们在自己的场景下面做私有化的训练。
由小见大,从我们一个团队的变化,也反映出当下整个大模型领域技术范式的变化。

03

现场提问


IDEA 团队接受现场提问
问:如何看待未来硬件推理架构?未来的硬件是长期「训推一体」,还是会有专用推理芯片的机会?
张家兴:本来我们曾经是训练和推理两类芯片,但是现在的推理芯片显然无法适应现在的大模型。
所以目前,基本从硬件的限制来说,做「训推一体」比较多。而且训推一体有很大的好处就是它可以复用算力。我们推理不见得一直是属于满负荷状态,所以可以充分利用波谷的时间做训练,这也是从经济的时间来考虑。
未来来看,推理芯片仍然具有其存在的意义。在某些场景下,比如移动端、边缘计算或车载设备等,仍然需要特殊定制的推理芯片。即使在云端、服务器里面,如果推理芯片朝着低功耗或者其他方面能够有更多的优化,那它也有存在的意义。我觉得未来应该还是会有专门的芯片做专门的事儿。
问:针对一些垂直类的应用,应该从哪些角度去搜集数据比较好?如何构建高质量的数据集?
张家兴:其实我们整个数据也都是逐渐收集的,从最开始只有二三十个数据集。但慢慢通过训练,比如缺了哪部分能力,我们就会针对性收集一部分这样的数据,同时会有我们自己的一些经验积累,比如一些数据处理之类的。
最后如果实在没有,我们会自己构造一些数据。比如针对多人对话等,我们都有各种各样的不同类型数据集在里面。
问:为什么做了这么多专项能力模型?为什么不在同一个模型上同时提升这些能力?
张家兴:我们有几点考虑,第一是我们事先选定了这样的模型尺寸,选择这个模型尺寸之后,再想让这个模型具备什么能力,这就是受限情况下的命题。这是非常大的成本优势。
这个时候想把所有能力放进来一个大模型里,但是这些能力在时间和空间上是互斥的。在空间上,某些能力是互斥的,比如当时我们做了逻辑推理方面的问题,比如数学题的问题和写作类的问题它们是有冲突的。另外是时间上的冲突,在某一个时刻某个能力是最强的,但其他能力可能不是很强。
既然下游的场景只是需要单一能力,那我们干脆去只选取某些特定的数据集训练某些任务,就是专用模型。
问:你讲到不稳定「训飞」问题被解决了,这是如何被解决的?
张家兴:这里面很关键的一点,第一是我们的训练上做了调整,我们在分布式训练时在源码层做了修改,确实训练的稳定性强了很多。我们当年训练 Ziya-LLaMA-13B 的时候,那个训练集的曲线就稳定了。我们是一个非常专注于训练技术的大模型团队,这也是我们能够持续做出好模型的保障。
问:对于公域大模型和私有化大模型的讨论,模型一定要私有化吗?比如我要做一个 to C 的应用,我可以不做私有化部署吗?
张家兴:首先,我们发现我们的合作伙伴有一些数据安全合规和隐私方面的需求,他们的数据不能去使用公有的模型去做训练。第二,他们需要有一个非常深度的场景,定制的需求,不管 to B 的产品还是 to C 产品,他们都希望在自己的场景去用。
这个时候,公有的大模型或者通用大模型底座并不能完全满足他们每一个需求,所以私有化训练和私有化部署就成为他们的必选项。

*头图来源:极客公园
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO



极客一问

当下整个大模型领域

技术范式发生了哪些变化?






 

热点视频

GPT3.5 vs GPT4!AI真的能自主拥有常识吗?微软机器学习研究员Sebastien Bubeck曾在一堂公开课上分享自己针对GPT-4进行的测验。
点赞关注极客公园视频号观看更多精彩视频

 

更多阅读



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存