对话面壁智能刘知远:我们的AI成果不要藏着掖着,要全人类一起进步
邮箱|damoxingjidongzu@pingwest.com
“从横向来看,我们显然仍与国际顶尖工作如Sora和GPT-4o有显著差距;同时,从纵向来看,我们已经从十几年的nobody,快速成长为人工智能科技创新的关键推动者。面向即将到来的AGI时代,我们应该更加自信积极地投身其中。”
在“大模型四小龙之一”的面壁智能的模型被海外团队抄袭的事件在开源社区引发议论,并进而让面壁上了热搜后,面壁智能的联合创始人刘知远在朋友圈有感而发写下这段话。他形容这次的事件“也算侧面反映我们的创新成果也一直受到国际关注”。
斯坦福团队抄袭事件的关键点在于,“模型小100倍,性能却与国外知名开源大模型齐平,训练成本也极低”,这样颠覆性的成果来自中国,面壁智能颇有戏剧性的出圈,一己之力扭转了“国外一开源,国内就自研”的刻板印象。而整个事件让开源社区开始注意一件事:
中国大模型开发者已经成为了全球范围内人工智能发展的主要推动力量,像面壁智能这样的团队已经能做出今天大模型开源社区最核心最有价值部分的贡献。
6月7日,清华大学长聘副教授、面壁智能首席科学家刘知远与品玩/硅星人创始人骆轶航进行了一场对话,谈了谈他对此次事件的看法,讲述了面壁智能一系列强大开源模型的开发历程与面壁对于AGI的理解,并分享了他对中国AI力量在全球开源社区建立影响力的思考。
以下为对话实录:
骆轶航:大家好,今天我们有幸与面壁智能的联合创始人兼首席科学家刘知远教授聊一聊。
最近大家都很关注,面壁智能突然成了一个热门公司,开源社区发现一个斯坦福的主要由本科生组成的团队发布的Llama3-V模型基本上原封不动地照搬了面壁智能在上个月发布的MiniCPM。随着证据和关注越来越多后,对方的团队公开道歉。
这个事再去追究其实没有什么意义。
外界更想了解的是,面壁智能做了些什么,面壁为整个全球开源模型、开源社区提供了样本式的“小”语言模型,这个事情本身意味着什么?
对整个开源模型的贡献是什么?
在全球开源社区,刘知远老师形容,中国贡献者正在经历量变到质变的过程,这个过程是怎么去实现的?
中国团队如何更好参与到开源的进程里?
面壁所倡导的开源文化,对行业的推动意义重大,大家底层的价值观判断是一样的
刘知远: 大家好。特别感谢有这么一个机会一起来做这个对谈,很少有机会参与这种在线的直播方式的交流。关于这个事件本身,细节可能不太值得再去特别深究,我反而特别想分享的是,我们更愿意去积极为开源社区做贡献的这么一种感受。
因为你可以看到,当有吹哨人把抄袭的相关事实呈现到社区上时,有非常多来自于各个国家,不同语言的从业者会去很认真地看细节资料,审视发生的问题,去谴责不好的行为。这让我感觉,也许我们是不同的人种、不同的语言、不同国家的人,但我们有共同的底层守则:去尊敬那些为这个社区真正做贡献的人,去致谢那些做出非常多贡献的人。
就像我在那个回应里说的,发自内心地觉得我们过去这几十年,整个人工智能非常快速地发展,就是因为我们可以始终站在最前沿的技术上不断的往前走。我们不会说,我们做出一个东西来,我们就藏着掖着,别人还得重新造轮子。我们全世界的人其实都是以一个整体在去前进。
我一直觉得这是代表人类文明的非常重要的特质。我自己作为当事人特别感动,亲身感受到了来自于全世界对这件事情的关心和声援,对什么是正确的,什么是错误的,有一个非常好的判定,我觉得这个是全人类能够走在一个正确方向上的非常重要的事情,是人类正确的价值判断的基石。
骆轶航: 刚才知远把文明和开源联系在一起的时候,我听了之后我还是有点感动。我看到开源社区的反应其实是非常直接和纯粹的,它背后没有夹杂着各种各样其他的因素。其实今天开源世界一半也是商业世界,有那么多商用的开源模型,是在别人的可商用的开源模型的基础之上建构起来,整个全球的生成式人工智能又是一个高度的和资本绑定在一起的事情,它是一个非常商业化的名利场的地方,但就是在这样的一个地方,开源社区在其中依然非常在意对错,是一个有简单朴素的价值观的地方。我觉得这种精神是人工智能这一波浪潮背后一个非常重要的一个驱动,背后是很多不折不扣的科学家,学者,教授和真正在做事情的人,他们让对错在一个非常名利场和商业化的竞争当中变得非常重要。
刘知远:我也深有同感。在国际上大家在开源的社区里非常真实地表达自己的观点,甚至在推特上非常多的不同观点的学者互相会非常直接地进行辩论争论,我觉得这是我们在国内特别需要去建立的一种文化。我们应该要积极地融入到国际的开源社区,融入到整个人工智能发展的大家庭。我们应该是要跟全人类一起进步。
过去几十年里,人工智能乃至整个计算机科学正是在这种具有明确判断标准的环境下迅速发展的。商业公司的参与虽然存在,但与开源共享的精神相比,商业因素并不是主流。开源共享是群体智慧的体现,它能够集合全人类的智慧,推动社会向前发展。我们现在要构筑的是比我们人类智能还要更加强大的超人工智能,这个过程一定是我们全人类共同努力才有可能完成。
骆轶航: 全球化的开源社区其实上是全人类共同去构筑一个未来的可能会超越人类的人工智能,甚至是通用人工智能。这是非常重要的沃土,它是全人类最聪明的人、最能够把论文学术成果变成现实的这样的一群人在去做的事情,我觉得这个也很重要。
我们现在把问题具体地拉回来,来聊聊面壁智能今年的发布成果和国际开源社区的关系。大家可能已经注意到了这两个重要的发布:一个是 Mini CPM 2.0,另一个是 Mini CPM 2.5。我首先注意到它在实际上星数、包括评论就非常好了,推特也开始有人去讨论了。
但一开始不是这样的,我记得最早到现在刷热门的搜这个词的热门讨论,有人转发这个事情,说2B做成这样的效果,真的吗?直到现在都是非常热的事情,还是很让大家意外的。
单纯的Scaling Law之外,还需要的Scaling Prediction
刘知远: 对这些问题,我想借着这个机会分享一下我们为什么会想着要做Mini CPM。
我们在去年8-9月份的时候训练出来一个千亿级别的模型大概能达到GPT3.5的水平。在当时那个阶段,可能绝大部分人都会想,接下来目标是去训练GPT4水平的逻辑。这是很自然的想法,其实我们那个时候就在非常认真地去探讨做GPT4水平的模型,我们到底该用多少数据和参数?
如果想要得到GPT4水平的模型,要么把参数规模做到,要么参数规模可以不用那么大,但是把数据量搞到足够大。不管怎么样,都会意味着一件事情——算力是非常高的。而在那个时候我们就会发现,Open AI已经有了非常重要的技术。而国内的大模型团队可能在那个时候还没有建立起来Scaling Prediction的能力。
我们认识到,如果没有准备好,就无法以最优状态训练更大的模型,这可能导致资源浪费而无法达到预期效果。如果没有做好准备,会意味着什么呢?意味着说你没有办法以最优的状态去训一个更大的模型。那就会导致也许用了更多的算力,更多的参数,更多的数据,但是有非常大的概率是没有办法得到一个GPT水平的模型。有点类似于瞎子摸象的感觉。
骆轶航: 用咱们国内的一个比喻,那么做就是纯炼丹了。
刘知远: 是的。所以我们那个时候就觉得其实盲目地说只要把模型规模变大,我就可以让模型的效果变好,这个的确是事实。但是如果这个过程是一个低质量的成长的话,其实你是不可能达到GPT4水平的。或者是说即使达到,也意味着说你是用了几倍于别人的算力,几倍于别人的参数规模。那就会导致训练出来的模型跟大炼钢铁,最后得到的都是废钢废铁一样,它本身不是一个高质量的模型的训练。
所以我们当时经过了大量的研讨之后,我们反过来会认为我们应该要非常认真地去研究探索大模型成长的规律也就是scaling prediction,到底是什么?所以我们在去年下半年就把主要的精力放在了如何去利用小模型来去建立起对大模型能力的预测上。我们后来把它称为“模型风洞/沙盒”。
要有一个模拟的环境,到后面要做大量的实验,我们不可能一下就做到更大的模型上,所以当时我们就在想恰好可以尝试端侧,比如在手机上就能够运行的模型,看它能达到的成效是怎么样。
去年接近年底的时候就相当于把我们本来要做的用来去训练了一个2.4B的模型,其实就是我们Mini CPM的水平,结果是超越我们自己想象的,我们发现原来我们可以把一个2.4B的模型能力训练出一个超越我们所有人想象的水平。这大大超越我们最开始想要开展这个工作的想法,也是我们做Mini CPM非常重要的心路历程。
说起来没有那么高大上,我们并没有一上来就看到了端侧的巨大空间,而是先通过大量的实验发现,原来端侧模型就已经可以达到这么好的效果,那显然可以更加重视在端侧上的模型,它可以做什么,这个变成了今年大家一起深度挖掘的行业方向,天马行空地去想象的命题。
面壁正在努力的,是用大模型的技术去完成知识获取的过程,不断进行知识萃取,提升知识密度
刘知远:Mini CPM做出来之后呢,我们就非常认真地探讨,我们好像在端侧这个级别的模型都还没有非常好地挖掘,也促使我们进一步思考:我们训练大模型的目标到底是什么?难道就是追求一个说这个模型一定要更大更强吗?也许我们日常生活中每个人需要AI做的事情,可能不用每一件事都需要一个爱因斯坦级别的模型去完成,一个GPT3.5水平的或者GPT3水平就可以了。所以我们在想,用更少算力的消耗把端侧先做得足够好,尽可能快地把大模型让更多的人享受上它的价值和作用。
我们认为训练大模型也许不应该单纯去追求模型的规模,我们更需求的是高质量的、高效的大模型解决方案。所以我们更在意的叫做“知识密度”,我们希望能够在同等规模的模型参数里面,能够把更多的知识注入到模型之内,这应该是未来大模型发展最重要的命题,也是我们要不断利用各种各样的技术的改进要达成的目标。我们内部做了一个类比,观察芯片大规模集成电路过去的70年的发展历程,会看到它就是要把更多的电路计算的能力,给集成到更少的空间里面去,它所做的所有的努力,其实都是在做这件事情。
如果人工智能大模型的技术路线,其实是找到了从数据到知识的非常通用的学习方法,我只要这些数据可以序列化,只要这个数据背后包含知识,我们就可以用现在大模型的技术去完成知识的获取的过程,这是一个非常通用的方案。接下来我觉得它的非常重要的发展的方向和趋势,应该是跟大规模集成电路的发展是类似的。即我们要不断提升知识进行萃取或者进行获取的密度,我们要把更多的知识放到一个更小的模型之内,我觉得这就是未来的大模型的发展方向。
骆轶航: 就是模型的尺寸变小跟芯片的尺寸变小,其实背后它是一样的,就是把更多的信息算力能够跑的东西放到一个更小的里面。
刘知远: 对。所以我们从去年下半年开始,我们决定不盲目跟随GPT4水平的竞争。因为我们能够预测到就是未来在达到GPT4水平赛道里面一定会挤满了各种各样的选手,我们觉得没有必要在这个阶段把一个一定会做成的事情在当前阶段就去跟别人去一比高下,这件事情本身没有太大的意义。我们希望能够更关注大模型更本质的知识密度的问题。
骆轶航: 在一个可能尺寸更小的模型上灌注尽可能多的知识密度。
刘知远: 是的。
骆轶航: 这个知识密度其实它也不意味着一个特别大的数据集。
刘知远: 对。
骆轶航: 可能一个相对比较小的一个,但高质量的数据在一个更小的模型,这个事情我觉得很有意思Scaling Prediction这个词是我第一次听到您去讲。我们能不能认为Scaling Prediction其实上是我们自己去理解Scaling Law或者认为这个是我们去实现Scaling Law的一个方式?
刘知远: 严格来讲 Open AI,包括Deep Mind等很多机构其实都非常关注这个问题,成长可预测。
骆轶航: 就是让大模型不再炼丹化,让模型训练本身不再是单纯的炼丹。
刘知远: 我内部会把它称为叫做大模型的科学化问题。我们希望能够找到它背后的科学规律。
骆轶航: 接下来我们今天是要聊整个面壁的以小博大的历程,以及全球开源社区的历程。其实2023年初,无论从微软,因为微软实际上它在市场的前沿又要做AIPC未来又希望去卖云和算力,他实际上是最早提出来做小语言模型的。我的理解就是说用一个更小的尺寸,更高效的训练,在一个更小尺寸的模型上强加更好的知识密度,更高的知识密度,训练出了一个性能更高的模型,这个事情其实是当时基本上没有人做的。
所以以至于会让开源社区也好,全球很多人也好,就看上去会比较意外。那这个里边实际上出现一个岔子。就是去年Mixtral 8x7B 的横空出世。但那个时候面壁已经在去训练自己的东西了。
我们能不能去讲讲Mixtral 8x7B 模型横空出现时,面壁智能内部受到了怎样的触动和影响?聪明的人几乎也会同时想到一些同样的方法,大家都想把Open AI包括他们训练黑盒打开的,大家打开的方式不同,但打开之后放出来的东西可能多少都互相会有点像。这个过程都发生了些什么?
我们是需要更科学、更高效,更低成本,更安全的科学规律,探索大模型空气动力学
刘知远: 我们去年下半年,其实并没有预期到我们后面会得到什么样的一个结果。只是说我们最后的结论会发现,原来端侧可以做到这么好。我们的探索本身一直有清晰目标。
首先我们非常认真地对待AGI,希望AGI 能够更早实现。我们为什么创办面壁智能,然后和OpenBMB 开源社区一起完成奔赴AGI的路程。很重要的原因就是在于我们已经看到大模型所代表的通用智能的趋势。因为我们会看到GPT其实已经把之前的各种专用的模型都统一成了一个通用模型,这个模型几乎可以完成所有的任务。前进的方向已经非常的清晰。
但是只要把AGI实现就圆满了?如果AGI的实现耗能非常高,每做一次都要花费非常多的时间和算力的话,那还是没有办法为人所用。我们一直在内部举一个例子。说莱特兄弟把飞机飞上了天,但是飞机本身并不能够乘非常多的人,它本身并不能够服务于我们人类。它只是证明了,飞机这样的形态飞上天是可能的。
就跟Open AI 证明我们可以用更多的数据,学出一个更好的模型这件事情是可行的。但是我们还需要发现,让飞机造的更科学、更高效,成本更低,能更安全的空气动力学的科学规律。我觉得大模型也需要有这样的科学规律。这个是我们的内在的逻辑。我们本身的探索有意外之喜,但是本身的驱动力本身是非常明确的。
我们从2021年创办这家公司,跟实验室一起来开展所有的工作,目标是非常明确的,我们就是要非常高效地把模型能够构建出来,用起来。这件事情是真正的能让大模型飞入千家万户的非常重要的前提。我们做Open BMB的开源社区的slogan就叫“让大模型飞入千家万户”。
回到刚才的问题,去年为什么我们要去跟Mixtral 对标呢?我们发现Mixtral 创立以来的一些相关的采访,他特别强调高效的概念,有非常神似的地方。我们会觉得,一个高效的大模型,是通用人工智能真正的能够为更多人所用的前提。我们不只是要造出一个大模型,我们还要高效地造出这个大模型,我们能够把它高效地用起来。
骆轶航: 大家都是把一个模型高效地用起来的Vision,导致大家在差不了两三个月的时间,实际上做了同样的事情,我觉得这个也很有意思。最近我在启动我的全球化AI开发者社区的项目,这样的项目肯定是要推崇开源的,也肯定是要推崇硬件和全球开发者联合在一起的。
我在思考,为什么全球探索更高效地把模型尺寸做得更小的实践,一个发生在巴黎,一个发生在北京,而都没有发生在旧金山湾区,背后的原因是什么?大家都在做,但现在有很多做小模型的公司都是今年初以来才陆续地去发了自己的东西。这件事我没有找到答案,我不知道知远老师对这个事有没有自己的观察和看法。
面壁对于行业的判断:发展端侧能力挖掘科学化非常重要,开源的长期影响巨大
刘知远: 我个人觉得可能法国的算力也不会那么的多。我们一定是要在有限的资源下,来非常高效地做事情。这也代表着大模型公司两种不同的思路,可能有的公司会认为,我需要先把这一次或者是更高的水平先做到,再去尝试着把优化它的计算成本和每个环节。
对于我们会觉得,如果你都还没有能够有一个非常科学的手段,能科学化地预测出你一定能做成,那没有必要现在就试一下,因为试一下可能就是几百万上千万的成本,而且得到的结果很有可能是一堆废铜烂铁。
预计今年将有多家企业达到类似GPT4水平,可能引发价格竞争或开源。我们认为参与这种竞争可能不是明智选择,不是我们奔向AGI唯一重要的事情。迈向AGI的过程有太多要做的事情了,科学化就是很重要。对我来讲,我更关注的是更科学高效的、高质量的大模型构建的过程。我们认为更本质的东西是大模型的科学化的“成长的问题”。也就是我们刚才反复说的知识密度。
骆轶航: 对,大小其实不是终极的目标。
新出来的小模型实现了很多在性能方面最大的可能性,它是一个商用的最佳化路径,我觉得其实还有一个问题想请教。
人们经常会讲一种观点,现在全球很多做具体场景的AI实践的人都意识到了:我们不仅仅只去追求模型的最先进性,从而才能够让一些东西做成和做好。价格敏感这个事不光是只有国内的开发者才重视,我觉得全球开发者都重视。如果我不能够确保GPT的AGI能够给我带GPT-4 Turbo的模型的最佳效果的话,可能我就未必一定要去用。这里边有一个概念需要去解释和澄清,知识密度高的、训练效率更优化的小尺寸小参数模型,它往往更擅长实现在某一个方面更好的结果和效果,而不是一个通用的更好的结果和效果?更小参数更高知识密度的模型,可能部署到某一个法律或者金融或者地产服务的场景更好。
是否可以说,小钢炮在某些方面能够实现一些更好的性能、更好的结果,而不是追求在通用上更好的性能,更好的结果,这个说法成立吗?
刘知远: 当然成立,但是它只是这个结论,只是一部分结论。我们最近其实画了一个趋势图,我们会把它称为叫做大模型的摩尔定律。类似于芯片的规律。AI大模型的知识密度正在迅速提高。从2020年的GPT-3到2024年初,我们已经能用更小的2B模型达到GPT-3水平,这显示了知识密度的提升。知识密度是大模型发展的关键因素,类似于集成电路的发展历程,知识正被压缩进更小的模型中。
端侧芯片的摩尔定律也在推动算力的增强,预示着端侧设备将能够运行越来越强大的模型。大模型的知识密度提升和端侧算力增强正在产生重要的化学反应,预示着未来模型的架构和运行方式将发生变革。我们乐观估计,未来一年内可以将GPT-3.5水平的模型部署到端侧,两年内实现GPT-4水平的端侧部署。
我们相信,在模型架构、数据质量和数量、学习方法方面,仍有巨大的挖掘空间,能够将更多知识集成到更小的模型中。我们认为,未来大部分计算任务将由端侧模型支持,只有少数需求需要云端模型。随着AI技术越来越深入人们的日常生活,用户对隐私的保护意识增强。我们预见,将有越来越多的用户倾向于在端侧处理数据,以保护个人隐私。提供端侧解决方案将更符合用户对隐私保护的需求,利用用户已有的端侧算力,避免数据上传至云端。
骆轶航: 这个我特别同意。最近有种言论,说别卷模型了,卷应用吧。与其不断追求模型规模的扩大,不如将重点放在应用开发上。这种观点在硅谷尤为明显,许多企业和组织都在积极开发自己的应用,利用Snowflake等提供的框架和工具,构建适合自己需求的模型,即使这些模型不是业界最强大的,但它们在企业内部使用起来效率更高,更便捷。个人用户端也呈现出类似趋势,越来越多人选择使用端侧解决方案来完成日常任务,减少对大型复杂模型的依赖。
刘知远: 在当前AI领域,开源模型已经提供了高质量的解决方案,如通义千问的最新版所展示的高水平性能。许多情况下,通过微调这些开源模型,已经能够满足许多应用需求。对于云侧应用,构建一个“差不多”能用的模型已经足够应对大多数情况。我们更希望在更严格的条件下挑战自我,即使在算力和内存受限的情况下,也能将技术价值发挥到极致,在端侧上追求更高的技术实现,是团队选择继续在端侧深入探索的重要原因。
骆轶航: 我们刚才聊了很多模型,我觉得接下来还是回到开源。我想知道就是我们为什么开源开得这么彻底, 初衷是什么?收到的反馈又是什么?
刘知远: 凡事可能都是多维的。即使我们有万卡十万卡,我们也会认为应该要走一个更加高效的路线。因为AGI对我们的要求就是要可持续发展,AGI的本质其实就是要高效,如果不高效的话,那它没有办法真正的能成为我们人类的工具。这是对我们对自己的内在要求。回到开源这个问题,得其实从几个角度来考虑,
第一个维度是在开源社区,你开源的姿态、行动会建立起全球的影响力,包括对人才的号召力,这对于一个团队非常重要。
第二,我们认为能够把一个模型往更高效训练的方向做的人太少了。我们有太多的团队在浪费算力,我会觉得如果你没有找到商业模式的时候,只是在对算力对数据去得到一个更好的效果,我觉得这件事情没有技术含量。
对于开源社区来讲,我们希望能够通过更多的呈现来告诉大家这个才是正确的方向,而且我们把所有的实验所需要的素材全都提供出来,是希望能够更多的有识之士能够一起走上正确的道路。有共同的目标,大家共同努力,我们是希望能够找到更多的同志。
第三,为什么在当下就敢于去把这么多开源出来呢?原因是我们认为,现在还处在大模型科学化的非常初级的阶段。物理学第谷他收集所有的天体运行的数据,从这个天体的数据找到规律的那个人是开普勒,但是开普勒三定律也知识中间结果,后来还有牛顿的万有引力定律。我们要做的事情是要找到属于大模型的万有引力定律,而目前还处于收集数据的阶段。我们希望可以号召全球的有识之士共同探索大模型的规律,相信通过团结合作可以更快地发现关键规律,惠及所有人。
在追求AGI的过程中,技术只是一部分,还需要探索属于AGI的超级应用形态,这是一个广阔的时代。
同行之间应寻求合作而非竞争,通过保持技术敏感性和领先性,快速应用新发现的规律,推动技术进步。开源社区的魅力在于,即使不是第一个发现定律的人,也能迅速利用这些规律,成为技术进步的领跑者。拥抱开源,我们可以走得更快。而且我们会觉得我们是这条路上的最早行进的人。
只要我们一直保持在这个方向上的技术上的敏感性和领先性,也许最终发现发现牛顿的定律的人不是我们团队,但我觉得我们团队一定是那个最敏感,能够马上拿过来去让我们走的更好的团队,这就是开源社区非常性感的地方。
骆轶航: 我觉得知远老师讲的开源社区非常性感的地方,我觉得自己也做了一个非常性感的事情,一开始开源开得非常彻底,这里边我觉得是不是也有一种可能,就是刚才我讲的有识之士大家一起去做。这里边有没有一种效应,就是我们把东西都开了,一些其他的有识之士,我们开源国际主义大家庭里边,也就会开出来更多的东西。然后去促进这样一个事,大家众筹当一个牛顿吧!我开得多一点,那么出于合作出于协作的心态他也有可能会开的更多一点,会不会有这样一种效应?
刘知远: 显然是这样。就是人人为我,我为人人。我觉得AI领域之所以迭代这么快。从主动的角度,我们会觉得拥抱开源,我们可以走得更快,当然你也可以理解成它其实就是在卷,全球的人都在同一个地方网站上卷。
骆轶航: 我们接下来聊一个问题,还是聊我们在开源社区的关注度的问题。还得提一句斯坦福事件。年轻的学生是有的时候会比较鲁莽,但他们也是在世界上最好的学府受到过严谨的学术训练的,尽管本科生的学术训练要求不像硕士生博士生那么高,但他还是做了这样一个事情,可能寄希望于事情不会被很快地知晓,甚至不会被发现和揭露。基于这样的背景,我发现了在全球开源社区的贡献,和公众在媒体上的曝光度是不对称的。buff叠的是斯坦福的buff,是在Open AI实习过的buff ,叠在一起可能就会被关注,有非常大的效应。这个侧面体现了我们一度的信任会比较高。我们怎么能够更好地体现我们在整个全球开源社区的能见度?我们接下来还能做些什么?
刘知远: 我觉得这应该是历史进程的必然。
我们作为后进人士,其实是在追赶的过程。不太可能是说已经可以望其项背了,就一下就能让全世界都知道,这个本身也不现实。客观来讲,斯坦福在全世界占了更高的聚光灯,有更高的曝光度。在国内,可能一个其他高校的人也会觉得,清华大学占了非常大的聚光灯显示度。从我的角度,我尊重这件事情本身,人类社会客观的现象,或者一种规律。我们作为追赶者,在追赶的过程中,你的水平跟原来的第一差不多了,也需要持续地去保持自己在这个水平,通过某一系列的事例证明,慢慢地改变大家对你看法或者是感受。我们可能很难说马上去改变这件事情。
我在过去的这十几年的研究中,太多次看到了同样的一个成果斯坦福的或者是其他国际高校的工作就是会引起更多的关注,这也是源自这些高校、这些研究组、这些人历史上积淀下来的声誉,大家关注了斯坦福,是因为它悠久的历史本身,对于硅谷的影响力。它是带来的前人栽树,后人乘凉,清华在国内也是类似。
看待这个问题,我们应该还是保持平常心。
但如何从根本上改变大家心里的看法?我们现在所做的每一件事情,都是为我们积累影响力,只要你坚持往正确的方向去做,做到足够的水平, 总会被更多的人认识,这才是我们应该要做的事情。国内机构在开源社区持续输出高水平的成果,如报告、论文、模型和数据集,是积累影响力的关键。
骆轶航 : 知远老师讲了最重要的一个事情:还是自己在开源社区持续地露出,去有贡献,让别人更多地去用到我们的东西,然后去做出更新的东西,以一个持续的态度输出我们的成果,模型的成果,数据集的成果,各种各样的成果。我觉得这个事可能也不是一家再去输出,可能还是更多家再去输出。大家都密集频繁的做。大家可能不会想起来,这个是一个中国公司或者这个背后可能是一个中国团队,大家可能一时半会不会想起来,串在一起多了,大家可能就想起来了。
我接下来还有一个问题,从一个更长期的角度来去看,面壁对于整个全球开源社区的价值和贡献最重要的点是什么?是我们持续地去践行训练的效率,包括我们发现的摩尔定律,把这件事情做到极致?除了我们不断地去把模型做小,把训练的效率变高,把知识的密度压进去,我们还怎么能够去实现这个摩尔定律?
刘知远: 大模型的摩尔定律很多人都在提。它与大模型的涌现现象一样,是对某种趋势的一个总结。这个趋势背后的推动是什么呢?就是背后的全世界的从业者,他们通过开源的社区,能够非常快速地去把最新的技术扩散出来,大家都能够迅速共享最新的成果和解决方案, 这可能就是摩尔定律能够可持续发展的一个非常重要的基础。所以我觉得,我们的这个开源社区给世界带来了一个更加高效的摩尔定律。所以我们要拥抱开源社区,人人为我,我为人人。我们不只是给这个社区做了贡献,我们其实除了收获社区、行业对我们的认可和尊敬外,我们也收获了同行的共识和最新的知识。就是既有竞争,又有合作。这是一个很美好的事情。
骆轶航: 很不一样的一个世界。您都把我想升华的东西都给升华完了。这个是我听到的国际主义密度最高的一次对话。我讲句我的感受,中国开源社区正在真正被大家觉得有所贡献。那个阶段大家都觉得中国永远是索取者而不是给予者,但现在这个阶段,基本上今年以来,大家开始觉得中国开始做共享,准确地说我1月份的时候都没觉得有人注意到这个事。4-5月份之后,现在有人开始觉得好像是这么回事,这个事件大家也感知到了。可见我们只要做了事,在一个相对比较国际主义的,而不是地缘主义的民粹主义的环境中,我们开源社区的开发者们,基本上都是国际主义的左派同志们,这个就是我们觉得非常美好的一点。
如果我总结一下,就是这个事美好的点,就是接下来的十年、二十年是一帮人工智能的开源同志们、五湖四海的开源同志们在让这件事情发生。