对话“曹植大模型”创始人
The following article is from TMT时报 Author 黄心怡
算力瓶颈对国产大模型迭代升级带来了困扰。“我们像唐僧一样到处在化缘,这里借点、那里借点。”达观数据董事长兼CEO陈运文说。
以ChatGPT为代表的生成式大规模语言模型,展现出知识学习和文字创作能力,受到国内外的广泛关注,也吸引了大厂和诸多AI创业者的加入。其中,达观数据官宣了“曹植”大语言模型,将作为产业级应用模型在金融、政务、制造等垂直领域落地。
近日,达观数据董事长兼CEO、复旦大学计算机博士陈运文接受了《科创板日报》记者独家采访,并坦言了算力瓶颈对国产大模型迭代升级带来的困扰。
“我们像唐僧一样到处在化缘,这里借点、那里借点。” 陈运文说,“其实已经买了挺多英伟达A800,但数量还不够。而英伟达的DGX工作站比GPU更难买,供货更少。我们现在订购的话,差不多到货需要2个月的时间。”
陈运文还指出,算力只是短期瓶颈,长期影响国产大模型发展的是高质量数据。“优质数据其实是最主要的竞争力,会逐步成为限制模型升级的重要瓶颈。高质量的数据在国内比较稀缺。和英文世界相比,国内在这方面的数据量可能相差一个数量级。即别人如果是10的话,我们只有1。”
2017年,谷歌提出了Transformer模型。之后,谷歌、OpenAI等开始尝试它的各种实现,推出了GPT-3、BERT和T5代表性大语言模型。直到2022年11月,ChatGPT的推出,上线两个月月活数迅速破亿,成为用户增长最快的消费应用。ChatGPT强大的内容创作和人工交互能力掀起新一轮人工智能应用热潮。
当前,国内百度、阿里、商汤、360、科大讯飞等企业纷纷入局大模型研发。对此,陈运文认为,国内外的差距在1、2年时间,短期内最大的瓶颈在于算力。
“乐观估计,一年以后国产模型完全能达到现有的 GPT3.5水平。在算法层面双方差距不大,瓶颈在于GPU算力。我们做模型,会先做小型的试一下,然后再放大、做中等的模型,测试好后,再进一步放大、做更大的模型。在这个过程中,算力要求变得越来越高。当达到大规模参数时,我们自己的服务器就跑不动了,就需要去外面租更大规模的机器才行。”
“就像唐僧一样到处在化缘。”陈运文如此形容所面对的算力限制。“这边借点、那边借点。我们买了挺多A800了,但数量还不够。训练大模型的话,动不动得给1000张卡甚至两三千张卡。数量越多,模型更新迭代的周期就会加快。原先需要一个月才能更新一次模型,算力充足的话,两个礼拜甚至一个礼拜就可以算完了。”
比起GPU芯片,英伟达的DGX工作站的供货更为紧缺。“现在买英伟达都得排队。A800供货还相对比较多一点,DGX工作站比GPU更难买,供货更少。现在订购的话,差不多到货需要2个月的时间。”
随着ChatGPT所掀起的人工智能浪潮,GPU俨然成为AI时代最重要的基础设施之一。GPU所提供的算力,被比作AI时代的原油。
“国内要实现全面智能化,所需要的GPU数量可能需要十几亿片甚至上百亿片。现在像一块A100或者A800要8万块钱人民币,H100差不多要二十四、五万。这个成本非常高。所以,建设更大规模的 CPU算力集群是很有必要的。我们也期待国产GPU能跟上来,这在一定程度上有利于解决算力紧缺的问题。”
从长期来看,算力的瓶颈是暂时的,而优质的数据会成为最大的挑战。
“优质数据其实是最主要的竞争力,也会逐步成为限制模型智能化升级的重要瓶颈。”陈运文说,“高质量的数据在国内比较稀缺。与英文世界的高质量数据相比,国内可能相差一个数量级。别人如果是10的话,我们只有1。而且很多高质量的文字资料,还没有数字化,是在图书馆里以纸质的形态存在。这样计算机是没有办法学习的,将限制当前国产的大语言模型智能化程度的提高。”
自从ChatGPT带火了AI赛道,王慧文、王小川、李开复等也纷纷被吸引,投身到这波大模型的创业潮中。
对此,陈运文认为,创业公司的机会在于垂直领域的行业模型和下游应用。“大模型更可能是BAT这类大公司,以及头部的创业公司来做。其他公司会专注于下游应用,这对整个产业生态将造成巨大的变化。”
此前,彭博社已发布了专门为金融领域打造的大型语言模型(LLM)——BloombergGPT。“你看,在金融领域已经出现了垂直领域的大模型,我相信在中国也一定这样的发展趋势,会有垂直领域的私有化部署大模型,而这也是创业公司的机会。”
陈运文判断,对于大厂而言,亲自为企业开展私有化部署是代价过高的事。“不同的企业有不同的数据,也有不同的应用需求。所有的私有化模型,都需要针对不同行业的客户做定向的训练和优化才行。而大厂不太愿意一个一个针对具体行业和客户去磕,但对创业公司来说是很好的市场机遇。”
不少业内观点指出,所有应用和服务,都值得基于AIGC技术以及大模型的支撑重做一遍。陈运文对《科创板日报》表示,这并非危言耸听。
“原来企业的软件应用,就好比装的是汽油发动机。但在大模型时代,这将变成核反应堆的发动机,威力要强大很多。通过使用更智能、更强劲的发动机,软件的使用体验更好、能效更强。举个例子,软件原先更多承担的是数字化工作,但是有了大模型以后,智能化程度大幅度提升,应用范围会进一步扩大。”
目前,达观数据所研发国产版GPT“曹植”系统,主要面向金融、政务、制造等处置领域的产业级应用。陈运文认为,在工业制造领域,GPT有望带来一场软件层面的变革。
“在工业制造领域,对人工智能的应用主要在实体的机器人,比如机械臂、机械手等。认知智能的算法模型,所涉及还不多。我们在交流中发现,有些企业的蓝领工人和白领工人的数量居然一样多,甚至可能比蓝领还多,原因正在于此。相比生产流水线的自动化,处理合同、订单、库存、物料管理、报关、财务等这些工作,还需要大量的人力来完成。”
与之前的三次科技革命,体力劳动者被取代不同,在GPT引发的这一次,教育程度越高、入行门槛越高、收入、越高的工作,会面临更大的变革。
“人工智能,尤其是大语言模型崛起后,未来白领70%的工作是可以自动化的,提升至生产流水线的实体机器人一样的水平。对很多大型制造业企业来说,这是第二次的智能化革命,也有利于提升国内企业的全球竞争力。”
对于曹植大模型的落地情况,陈运文坦言,仍在打磨过程中。“制造业、金融领域的大型央企在一起合作、找应用场景。过程中仍然存在很多的技术难点,需要摸索和突破,挺不容易的。要做很多试错,是着急不来的。”
谈及人工智能对人类工作的取代, 陈运文表示不用过于担忧,更重要的是尽快学习掌握这种强大的工具。
“谁掌握了GPT工具的使用,谁就能够在未来发展中拔得头筹、占得先机。因此,可能会诞生一种新的技能,就叫‘提示词工程’。如何把人类的需求,用机器人可以领会的方式告诉他,从而唤醒机器人背后强大的能力。很多人只会问一些特别简单的问题,但机器人的智能程度是非常高的,如果描述的问题和介绍的背景,比较有技巧,就能把机器人的能力充分释放出来的。
陈运文甚至大胆预测,未来会有出现提示词培训班。“就和十几年以前office 、Excel的培训班一样。prompt培训班是教你怎么把智能化系统的潜力,更好地激发出来。”
推荐阅读