本土化的大模型将会更加适应中国语言语境和中国市场。
谁会领跑中国大模型?
2022年底,人工智能聊天机器人“ChatGPT”横空出世,爆火出圈,瞬间成为AI界“顶流”。ChatGPT时代的到来,加速了场景落地,让多领域应用更加智能化和自适应化,但“上知天文、下知地理”的ChatGPT,其背后却是大模型底层逻辑及未来运用。
大模型:智能时代生态核心
大模型又称为Foundation Model(基石)模型,模型通过亿级的语料或图像进行知识抽取,学习进而生产了亿级参数的大模型。本质是自监督学习,利用大量无标签很便宜的数据去做预训练。
“ChatGPT本质上就是一个大模型。”近日,科技部部长王志刚在国新办新闻发布会上谈及热门话题ChatGPT时指出。
如何形象理解大模型?王志刚部长表示,大模型,就是大数据、大算力、强算法。大模型事实上就是算法、数据、算力上的有效结合。
联通数科首席AI科学家廉士国认为,ChatGPT等大模型的运行和服务离不开算力和网络支撑,运营商作为新型信息基础设施服务运营者,可以加强算网融合的智能算力中心建设,来承载ChatGPT等大模型训练和推理服务,真正让大模型服务遍及无处不在的用户。
在复旦大学邱锡鹏教授看来,随着算力不断提升,语言模型已经从最初基于概率预测的模型发展到基于Transformer架构的预训练语言模型,并逐步走向大模型的时代。当模型规模较小时,模型的性能和参数大致符合比例定律(scaling law),即模型的性能提升和参数增长基本呈线性关系。然而,当GPT-3 / ChatGPT这种千亿级别的大规模模型被提出后,人们发现其可以打破比例定律,实现模型能力质的飞跃。这些能力也被称为大模型的“涌现能力”(如理解人类指令等)。
因此,大模型是“大算力+强算法”相结合的产物,大模型的核心特征是模型参数多、训练数据量大。有研究估测,训练1750亿参数语言大模型GPT-3,需要上万个CPU/GPU24小时不间断地输入数据。其能耗相当于开车往返于地球和月球,一次运算就要花费450万美元。同时,高昂的研发成本意味着,主流的大模型只能由大型科技公司或少数研究机构掌握。
总而言之,大模型是智能时代生态核心。通俗的讲,AI大模型就是一个拥有“超级大脑”的学霸,不仅知识渊博,才华横溢,最厉害的是深谙各领域知识内在的逻辑和解题思路,能够触类旁通,具备奇思妙想的特质并产出新的创意、生成新的知识体系。
相较大模型,小模型“举一反三”能力不足,是“偏科的机器”,只具备学习特定应用场景的有限数据的能力,但人工智能的需求呈碎片化、多样化的特点,小模型往往无法快速解决更多实际、迁移式的问题, AI大模型则学习了各行各业各类数据,成为具备良好的知识迁移能力的“通才”,只需对其参数进行微调,便可实现靶向高速处理。
潮流挺进:构建中国AI“新赛道”
ChatGPT是多项AI技术的集大成者,背后离不开庞大的算力、人才等资源的支持。事实上,ChatGPT的成功并不是偶然结果,在目前版本开放以前,OpenAI已经在训练大规模语言模型的道路上深耕多年。
目前在国内,超大模型的研发进展异常迅速。在政策层面,除了在“十四五”期间,针对人工智能的未来发展陆续出台相关指导方案和激励支持政策外,近日,以北京为例,北京市经济和信息化局对外正式发布的《2022年北京人工智能产业发展白皮书》中指出,北京市将支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。
2023年全国两会期间,多位全国人大代表、全国政协委员将视野聚焦“如何发展中国自己的ChatGPT”,为人工智能的发展献言献策。全国人大代表、科大讯飞董事长刘庆峰表示,应当加快推进我国认知智能大模型建设,在自主可控平台上让行业尽快享受AI红利,让每个人拥有AI助手;全国政协委员钱家盛则建议加大人工智能科学与技术交叉学科建设,稳步推进“人工智能+学科群”培养模式,构建人工智能领域人才培养体系和科技创新体系。
趋势已然,大模型技术突破代表了人工智能发展的一个重要里程碑,将会带来一场人工智能和通用人工智能为驱动力的“工业革命”,中国在该领域内必然不会缺席。随着大模型的潮流挺进,也必然促进中国AI “新赛道”的加速构建。
以百度为例,2019年3月,已率先发布国内首个正式开放的预训练模型ERNIE 1.0,开始大模型的升级锻造之路。同年,在自然语言处理领域的权威数据集GLUE中,百度ERNIE一举登顶,首次突破90分大关,刷新榜单历史。2022年,百度在业内首次提出行业大模型的思路,帮千行百业化繁为简地享受AI带来的技术红利。
百度2022年财报数据显示,智能云营收目前在百度核心占比为18.5%,且增长跑赢大盘。过去一年,百度智能云和头部企业的差距在缩小,并形成“AI应用+AI模型+深度学习平台+AI算力基础设施”这一套差异化的解决方案。未来,“AI算力+大模型”将是云计算下阶段的技术重点,百度智能云已有长期布局。
相关专家也一致认为,国内已经宣布布局ChatGPT类产品的科技大厂中,能够最终做出类ChatGPT产品的,最大可能还是拥有国内最成熟的大模型开发工具和产品体系的企业。目前来看,百度或是众望所归。
抢滩大模型:谁是领跑者?
据相关机构预计,2026年中国人工智能软件及应用市场规模将会达到211亿美元,国内被寄予厚望的各大科技公司都在不断探索大模型运行的新方法、新模式,然而,只有落地才能实现大模型的价值。
业内翘首以盼能做出国产ChatGPT、AI实力满满的百度,一举一动都成为焦点。在面对大模型研发门槛高、难度大,依赖算法、算力和数据综合支撑,产业化面临模型体积大、训练难度高,算力规模大、性能要求高,数据规模大、数据质量参差不齐等挑战时,百度是如何支持大模型运行、实现大模型产业化的呢?
《通信产业报》全媒体记者从百度相关专家处获悉,百度一直在优化算法、算力和数据,并借此综合优势将模型生产的复杂过程封装起来,百度通过大模型与国产深度学习框架飞桨融合发展,打造了自主创新的AI底座,大幅降低了AI开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动AI规模化应用的产业价值。
浙江大学机器人研究院常务副院长陆国栋教授表示,在科研创新方面,既要解决“卡脖子”问题,更要解决“堵脑子”问题,一般而言,“卡脖子”主要涉及“硬”问题,“堵脑子”更多涉及“软”问题。百度专注AI领域多年,相关技术储备已经处于业内领先。
据了解,百度文心大模型一大特色是“知识增强”,即引入知识图谱,将数据与知识融合,提升了学习效率和可解释性。百度文心构建了文心大模型层、工具平台层、产品与社区三层体系。在产品能力上,文心大模型+飞桨PaddlePaddle深度学习平台,满足市场大规模落地需求;在应用能力上,百度已在金融、能源、制造、城市、传媒、互联网等行业拥有实际落地的标杆案例;在生态能力上,在社区用户的基础上,可以实现与开发者、行业用户、上下游产业的正向互动。
《2022中国大模型发展白皮书》中指出,IDC中国将大模型市场服务划分成了L1—L5五个层级(层级越高,厂商在大模型市场梯队越靠前),最终评价结果是当前大部分厂商能力处于L2—L3层级。其中,最为凸显的是唯一处在第一梯队的百度文心大模型,产品能力、生态能力达到L4水平,应用能力达到L3水平。
显而易见,百度是全球为数不多、进行全栈布局的人工智能公司。百度的模型可以被认定为最先进的中文语言模型,不止是语言,还有百度对中国文化的深入理解,本土化的大模型将会更加适应中国语言语境和中国市场。申请百度智能云文心一言测试企业已破8万。
此外,百度的大模型能力将通过百度智能云对外提供服务,依靠早已积累的企业数字化转型实践经验,有助加速AI普惠。从业务进展来看,百度智能云在部分领域过了“从0到1”做标杆阶段,开始进入“从1到3”复制推广阶段。“对于客户规模不够大、数据获取成本高,难以收回成本的中小AI企业,不用自己去搭建大模型,可以借助百度智能云等大厂提供的平台能力完成符合自己需求的大模型,从而节省企业时间和成本,继而专注于做自己擅长的事情。” 业内专家建议。
数据、算法、算力是AI发展的驱动力,大模型增强了AI技术的通用性,助力普惠AI的实现。未来,大模型有望与场景深度融合,配合专业工具和平台支持应用落地,以开放的生态来激发创新,形成良性循环,并通过提供全流程支持应用落地的工具和方法,让更多企业受益。
推荐阅读