查看原文
其他

林达华:以原创开源体系,推动大模型落地变革

Shanghai AI Lab 上海人工智能实验室 2023-09-21

当前,大模型浪潮席卷全球,展现出的强大能力和发展潜力。如同每一次技术革新突破,大模型并非无本之木、无源之水,而是源于少数先行者的前瞻性探索和多年原创积累。


早在2021年,上海人工智能实验室(上海AI实验室)就发布了书生1.0通用大模型,并逐步对其中的算法和模型进行开源。今年7月6日,上海AI实验室联合多家单位发布书生通用大模型体系,包括“书生·多模态”“书生·浦语”和“书生·天际”等三大基础模型,以及首个面向大模型研发与应用的全链条开源体系,开“全面开源、免费商用”之先河。


大模型的真正价值是什么?什么样大模型才算“好”?哪些行业可以率先把大模型用起来?在训练大模型的过程中,要避开哪些“坑”? 


近日,围绕大模型的发展前景、开源价值等热门话题,上海人工智能实验室领军科学家林达华接受媒体采访,畅谈学术界和产业界共同关切的话题。

以下Q为记者提问,A为林达华教授回答。

林达华

上海AI实验室领军科学家,香港中文⼤学信息⼯程系副教授,⾹港中文大学交叉学科人工智能研究所所长,于2012年在美国麻省理⼯学院获得计算机科学博士学位;研究领域涵盖计算机视觉、深度学习、通用大模型等;在人工智能领域顶级会议与期刊发表逾200篇论⽂,引用逾31000次;曾指导团队参加计算机视觉领域的主要国际竞赛并多次夺冠;发起的OpenMMLab已成为深度学习时代最具影响力的视觉算法开源体系;多次担任主要国际会议的领域主席以及主要国际期刊编委。

大模型的发展

将推动生产力变革

Q

ChatGPT大火之后,大模型在中国也是遍地开花。大模型能“火”多久?如何看待大模型的真正价值?

A: ChatGPT和几年前的AlphaGo类似,更多地让公众了解到,这样的技术方向所具备的巨大潜力和应用前景。大模型或大语言模型的边界并非聊天对话,而是为各行业的生产力带来变革。我们可以利用它的计划能力、推理能力,帮助人类从常规的繁琐工作解放出来,例如,它在写作、信息归纳和数据分析等方面的能力,都可以为人类带来帮助。所以,当我们在谈论大模型的时候,不应该只关注对话聊天,更应看到,它能帮助人类全方位提高工作效率、提高生产力这样的巨大潜力。正因为它具备这个潜力,所以大模型在产业当中,能为国民经济当中带来更大的经济价值。如果我们希望看到大模型更有生命力地持续发展下去,就不能仅仅关注有趣的聊天,而是要考虑如何让它扎根各个行业,成为催化生产力变革和提升效率的技术基础设施,成为未来社会发展的重要基石。也许对话聊天这件事不能“火”很久,但我们如果可以利用这个契机,推动大模型在行业中的落地应用,发挥其对生产力的价值,大模型才能对未来带来更深远的影响。


Q

未来,大语言模型的应用方向会有哪些?

A: 书生·浦语开源一个多月以来,收到众多企业和机构的商用授权申请,覆盖航空、能源、汽车制造、农业、医疗、电信、文化传媒、教育、房地产、金融保险、软件服务、电子商务、法律服务、办公、政务等十数个不同领域,从中也可看出,大语言模型未来的应用具有很大的潜力。
书生·浦语大模型提供了一个模型的基座,可针对不同的场景培育不同的模型,以解决不同领域内部的通用问题。例如,可以用它做一个写文档的助手、客服助手,还可以利用它对数据结构化、信息归纳的能力,做一个数据分析助手。这些都是它能支撑的应用的范围。

近期已经有团队使用这个语言模型做一些更有趣的事情,例如把它用来打“我的世界”游戏,它可以凭着“直觉”,生成寻求保障的计划,这显示出了它在做执行计划方面的能力;又例如,用它来控制机器人、无人机集群等智能体,进一步拓宽了大语言模型的能力边界。

Q

目前国内外出现了不少大模型,甚至有“百模大战”的说法。对此你有什么看法和建议?

A: 做大模型或基础模型消耗资源很大,而且最后市场化和商业化的风险也存在很多不明朗的地方,所以如果是有市场压力的情况下,我的建议是先把价值闭环摸清楚,可以先尝试从这个开源的基础模型出发,先去构建整体的价值闭环,先把商业形态价值点先搞清楚了之后,再去回来去看整个闭环哪里还存在技术上的短板,这样就能更有针对性的去投入技术研发的力量。任何一项技术都需要在实际应用中产生价值。


免费商用:把大模型门槛打下来

Q

大模型的训练过程是否非常复杂,研究和开发是否成本很高?

A: 是的,大模型的训练过程不仅成本很高,而且需要很深的技术积累,这也是为什么开源很重要。基座大模型不是训练一次就能做成的,要经过非常多次的失败和尝试之后,经历很多试错,它才能得到一个真正性能均衡的高水平模型,要求资源有个持续投入的过程。我们把书生·浦语的7B版开源出来,学术界、产业界就可以在它的基础上进行应用的创新或技术层面的创新。不仅开源了模型,还把全链条的工具链都开源开放,希望和产学研各界一起把生态做起来,共同分享技术进步的成果。

Q

书生·浦语的开源是免费的吗?

A: 7B模型做到了“全面开源,免费商用”,目的就是要把大模型的门槛打下来。我们关注的是能否先把生态构建起来。当有一个活跃生态的时候,各界是愿意在这里面继续投入的。如果整个行业不能发展起来,个体机构或企业也很难持续,所以现在最重要的先把整体生态做起来。


Q

除了对书生·浦语7B模型开源,未来还会开放更高阶版的大模型吗?

A: 开源的工作是逐步进行的,我们首先尝试把书生·浦语7B模型开源,因为我们观察到7B模型已经具备了较强的能力,它在垂直领域微调适配后其实已经可以解决很多实际应用中的问题。在7B开源后,我们会逐渐探索怎么样去运营或构建一个围绕大模型的开源社区,它和基于代码或者算法的开源是有很大区别的。随着经验积累不断完善,未来会有计划开源更高量级的大模型。
“学霸”是怎样炼成的

Q

此前发布的书生通用大模型有哪些特点?
A: 过去一段时间我们见证了非常多的大模型发布,每一次发布都会带上一个或多个Benchmark(基准),用来突出该模型在某些测试基准上能取得的性能——可以把它理解为单科成绩。书生通用大模型是一个基座大模式体系,而不是单个的大模型。基座大模型的意思:它不是针对某个特定任务或领域的,而是可以赋能广阔的不同领域,所以它的能力均衡性非常重要, 通俗地也可以理解为不能”偏科”。这次我们发布的书生大模型中,书生·浦语系列已经公开的有两个版本的基座模型:104B的高性能版和7B的轻量级版。我们研发这些基座模型的时候非常强调“通用性”,不“偏科”,从而为广泛的下游任务打好基础。 首先,书生·浦语大模型这次把近50个Benchmark的成绩都公布出来。这些成绩显示了该模型具有很均衡的能力,在大部分评测集上达到很高的水平。其中104B版本在超过80%的客观评测集上取得超过ChatGPT的成绩,目前开源的7B版本也在各个维度上超越其他开源模型。其次,实验室非常关注模型的核心内在能力。如果大家用大模型进行日常聊天,其实看不太出来有什么区别。真正有区分度的,是用它来进行复杂推理,比如解非常难的数学题,或做一些需要多个步骤获得答案的题目,这也是为什么OpenAI在ChatGPT主要展示聊天能力,而到了GPT-4更强调多学科的考试能力,因为通过考试,可以展现出后者具有解决复杂问题的思维能力。

Q

书生·浦语算是学霸吗?以它目前的水平参加高考,能考上985、211高校吗?

A: “书生·浦语”在知识型的题目上表现比较突出,反映出它对知识的掌握是较全面的,准确性也比较高,对浅层次推理也有良好的表现;接下来,我们需要进一步突破它的复杂推理能力,比如能做像高考数学最后的两道大题这样的复杂题目。

大家对大模型的成长还需要保持一定的耐心。从目前来看,它们如果正常参加高考,还不能考上985、211高校,除非我们使用高考题型,对它进行大量的考试强化突击,而这并不是我们的目标。正如前面说到的,我们更关注的是基座模型的均衡能力。

基座模型的成长速度非常快,未来要达到985、211分数线也并非难事。当前更应注重的还是大模型基础能力培育,而不能拔苗助长,我们会循序渐进,一步一个脚印向前走。


Q

“书生·浦语”这样的中文语言大模型,在训练过程中需要突破哪些难点?团队如何去实现核心突破?

A: 大模型尤其是基座模型的研发,最核心的挑战是试错成本非常高。这个领域在技术分享上其实是非常保守的。OpenAI和Google在它们最新的技术报告中对于技术的描述都非常简略。虽然原理上大家都理解,但是大量复杂的技术细节只能依靠自身探索和积累,没有捷径。而积累这些技术是需要大量实验试错的,一个千亿参数模型在千卡集群上过完1万亿token数据就需要超过一个月,成本非常高。因此每次确定一个实验方案都是很谨慎的基于全盘多因素考量的决策过程。

具体到不同技术方面:在数据层面、系统层面,从预训练阶段,到预训练结束后的微调阶段,都有不同的难点。

首先是数据层面,正如前面说到,很多人可能认为中文的语料积累不如英文的丰富,其实这并不是根本性问题。因为在语言模型的世界里,不同语言表达出来的基础知识是相通的,不同语言只是不同的表达形式。因此,在语言大模型中,只要把语言能力补充上去,无论基于哪种语言学习出来的知识是可以进行跨语言转化的。更重要的是语料的质量,尤其要当这个语料规模非常庞大,达到万亿级时,如何保证所有语料的高质量,这是一个关键的挑战。

其次,到了训练阶段有两重挑战:第一,需要用数千个GPU花几个星期联合训练一个模型,如何让所有GPU高效协同,并且能够持续稳定进行训练,尤其是在遇到硬件故障、网络故障时仍然能够高效运行,所以在系统层面这是很大的一个挑战。第二,由于每一次训练的周期很长,这就需要一套方法论来提高整体高效。我们这个过程中总结摸索出来的方法是,可以先在相对小规模的参数,例如几十亿参数的规模上,进行大量的技术方法和技术设定的验证,然后进行技术选型,最后再融入大模型训练的主线。另外,主模型的训练也会花很长时间,我们会把整个训练分解成若干阶段,每个阶段进行相对全面的评测,就像学生的日常小测验一样,根据评测和评估的结果,决定下一阶段攻关的方向,调整下一阶段的训练配置,确保在长达一两个月的周期中时刻掌握好“方向盘”,保证整个训练能得到比较理想的结果。

最后,到了模型微调阶段,要做的事情很多,一方面要遵循指令,产生预期的对话,另外,要让它遵守价值观、道德边界;因此,平衡不同的目标诉求,使得它安全、有效,这也是一个挑战。

最后,整个工作是个大规模的系统工程,我们有不同团队针对不同问题进行攻关,最后需要把所有团队的努力整合在一起,才能形成成果。这样一个系统工程的高效组织,也大模型训练和研发很重要的一个挑战。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存