从来就没有横空出世的爆品,只有一种看不见的强大势能日积月累。
本文试着思考一个问题:ChatGPT“横空出世”背后的势能何在?大型语言模型在全球的竞争格局如何?中国的大语言模型何在?整理了一些粗浅的吸收和思考,分成上下两篇。这是上篇,Enjoy~一、研究机构
先看全球范围内,有可能研发出大语言模型(LLM)的研发机构,我罗列了一下国内外顶尖AI Lab:(不全,欢迎反馈补充)
以高校为代表的学院派在这种大算力(动辄上千块GPU)、大数据(上百亿训练参数)需求的实验场景,研究成果有限,声量微弱。
市场派主要包括全球主流互联网公司的人工智能研究院(AI Lab)。这类研究院的成立初衷,往往是为公司主营业务赋能(比如字节的文本和音视频推荐场景、阿里巴巴的电商场景、百度的搜索场景)。在不少场景,AI确实实实在在赋能了业务,但也不排除大量发了Paper但无法落地的项目,因此,前几年已经出现一波AI Lab骨干回流学术圈的现象。相比之下,类似OpenAI、国内的新智源研究院(BAAI)等新研发机构,具备一定的集中人才和资金办大事的优势,并且没有互联网企业内部这种KPI压力,可以容忍较长时间的探索。但据说OpenAI 在2019年也面临资金压力,国内新研发机构也爆出过抄袭论文事件,可见夹在学术研究和落地应用之间的研究机构也有自己的问题。总体来说,目前的局势看,互联网公司AI Lab和新型研发机构应该代表国内最高水平。 BTW,2月7日,百度官方已经发布消息,近期即将发布类似ChatGPT的产品,取名“文心一言”。
二、人才篇
一位NLP(自然语言处理)的前辈说过,他们在找NLP合作方时,会先找几个老专家的“徒子徒孙”。如果一个企业内部没有这几个老专家的徒子徒孙,那这个项目很可能是一个伪NLP项目。
深度学习大火的时间其实不久,寻根溯源,比如深度学习三巨头,Hinton去了Google,Yann LeCunn去了Meta(原Facebook),Joshua Benjio在学界。而OpenAI联合创始人IIya Sutskever即Hinton的学生。这之外,自己创立公司的吴恩达、斯坦福大学的李飞飞、Google DeepMind负责人Demis Hassabis都是该领域执牛耳的人物。左起:Yann LeCunn,Geoffrey Hinton,Joshua Bengio从数据方面,找到两份调研报告。分别来自美国MacroPolo 和中国清华的Aminer。美国在顶级AI研究方面大幅领先于其他国家,近60%的顶级AI人才为美国大学和公司工作。美国的领先优势建立在吸引国际人才的基础上,在美国工作的顶级人工智能研究人员中,超过2/3的人在其他国家获得本科学位。中国是顶级AI人才的最大来源,其中29%的研究人员在中国获得本科学位。但这些中国研究人员中的大多数(56%)后来都在美国学习、工作和生活。在所有顶级人工智能研究人员中,超过一半(53%)是移民或外国公民。比如全球顶尖AI人才工作地点,59%在美国,11%在中国。而人才来源方面,中国是最大的AI人才输送国。可见国内AI人才吸引力和环境还不容乐观。By https://macropolo.org/digital-projects/the-global-ai-talent-tracker/另一份,来自国内的Aminer《自然语言处理报告》,中国乃至整个亚洲,和欧美在自然语言人才方面差距较大。
三、全球大语言模型统计
国内外均有超大语言模型,在训练参数量上,参数量不输国外。当然参数量只是最终质量的一个变量。
关于大语言模型,不得不提斯坦福大学李飞飞联合多名学者发布的论文《论基础模型的机遇与风险》。
在 BERT 出现(2018 年)之前,语言模型的自监督学习本质上只是 NLP 的一个子领域,与其他 NLP 子领域并行发展。但在 BERT 横扫 11 项 NLP 任务之后,这种格局被打破了。2019 年之后,使用自监督学习构造语言模型俨然已经成为一种基础操作,因为使用 BERT 已经成为一种惯例。这标志着大模型时代的开始。这一时代的重要标志是“同质化”。如今,NLP 领域几乎所有的 SOTA模型(State of the arts ,指本任务下当前性能最优的模型)都是少数几个基于 Transformer 的大模型进化而来。而且,这种趋势正在向图像、语音、蛋白质序列预测、强化学习等多个领域蔓延。整个 AI 社区似乎出现了大一统的趋势。这种同质化提供了强大的杠杆作用,但需要谨慎,因为基础模型的缺陷会被下游所有模型所继承。尽管基础模型即将广泛部署,但我们目前对它们如何工作、何时失效,以及由于它们的涌现特性、对于甚至它们能够做什么,都缺乏清晰的了解。为了解决这些问题,我们相信,大部分基础模型的关键研究,都需要相应的深度跨学科合作。极大的势能需要远大的愿景。比如GPT大语言模型背后是深度学习这种范式的支撑。在Yann LeCunn自传《科学之路》中,记录了他和Geoffrey Hinton熬过深度学习寒冬,终于守得云开见月明的心路历程。比如在BERT和GPT路线之争中,OpenAI也经历了“寒冬”比如坚持“老”技术路线、没有实质的创新,不发paper,但坚守和持续打磨模型和数据,做算法工程师眼中的脏活累活——数据工程。下图是DeepMind和OpenAI近7年公开发表论文的情况,可见OpenAI的工程倾向。在算力方面居功至伟的英伟达创始人黄仁勋,也说过他愿景:科学计算的平民化。因为有了NVIDIA GPU,研究人员使用一个GeForce卡就可以做出AlexNet这样的突破,而不需要依靠云计算中的超级计算机。没有仰望星空就没有脚踏实地。看不见星空的结果,就是一种退而求其次的心态。而退而求其次的心态,和前沿创新所需要的那种舍我其谁、all in和极致精神是相悖的。把目标设定为追求二流的团队,结局只能是三流四流。比如曾经中国版的Google、最懂中文的XXX,到如今的中国版的ChatGPT。看不见星空,低头就只看到对手。于是,大家在阴沟里刨食,用难看的姿势掐架。关于合作与竞争。正如李飞飞等学者在论文中呼吁的跨学科深度合作,微软的Azure和OpenAI、Stability AI的开源,都体现了海洋文明与生俱来的合作思维。在一个成熟的商业生态中,有辅助前沿技术探索的学术机构,也有OpenAI这样提供技术模型的基础设施层,还有基于大模型的创业公司,深入不同的应用场景,实现整体生态平衡和规模效应。反观国内部分媒体,似乎没有背叛和拔刀相见的话题,就没有可以报道的内容了。当然,在Google、微软、Meta、中国机构之间,存在竞争和制衡是合理的。但在这样人类面临的重大机遇和风险面前,理应有大片的空白,需要联合大家的力量去拓荒。就像有人不理解为何放特斯拉的专利,但如果看到特斯拉的愿景是“加速全球向可持续能源转变”——答案就很清晰了,电动车的阵营越强大,这个愿景和目标就越接近。国内同类的大语言模型何在?其实国内训练不少大模型了,训练参数上甚至远超GPT,比如智源研究院2021年发布的悟道1.0就已经1.75万亿参数,是GPT的10倍。国内各家AI Lab和研究机构,是否有可能集中力量来攻坚一个这样的项目?各家做好算法、算力、数据的分工,训练好一个大模型。而不是一拥而上,各自训练一个半成品,刷榜和PR之后,杳无声息。无论是谁复刻ChatGPT,那个以这个为起点,仰望星空,那个奔向不雷同于OpenAI 的星辰大海,那个值得大家信任的人,那个能用宏大愿景团结众人的人,何在 ?1、有10+比较值得研读的AIGC报告,在本公众号后台回复“chatgpt”可下载;2、建了“ChatGPT全景图”交流群。如群二维码过期,可加笔者微信(备注公司+姓名):jeusmypower
AIGC:AI Generated Content ,人工智能自动生成内容NLP:Natural Language Processing,自然语言处理LLM:Large language model,大语言模型AGI:Artificial general intelligence,通用人工智能NLU:Natural language understanding,自然语言理解 GPU:Graphics Processing Unit ,深度学习用的显卡BERT:Bidirectional Encoder Representations from Transformers”,双向编码器表示RLHF:Reinforcement Learning from Human Feedback,基于人类反馈的强化学习 |