从940条算法备案清单看中国AI大模型
算法大模型是指那些规模庞大、功能复杂,能够处理海量数据并学习复杂模式的算法系统。这些模型拥有自我学习和自我进化的能力,甚至在某些领域展现出超越人类智能的潜力。近年来,随着计算能力的提升和大数据的爆发式增长,算法大模型的应用领域不断拓展,引发了社会各界的广泛关注。
我们分析了自2023年6月至2024年4月(最新)5批共940条境内深度合成服务算法的备案清单,试图描绘出当前国内算法大模型和人工智能发展的真实图景。
一、从备案清单看算法发展
分析五批备案清单,我们发现备案数量呈持续上升趋势,第四批与第五批备案清单增长数量尤为明显。这不仅反映了人工智能技术的快速发展以及市场需求的增长,也与相关政策出台要求行业规范密不可分。
事实上,早在2023年1月10日,国家互联网信息办公室、工业和信息化部、公安部便联合发布《互联网信息服务深度合成管理规定》,其中第19条规定要求,具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《互联网信息服务算法推荐管理规定》履行备案和变更、注销备案手续。这意味着此后深度合成算法均需要在网信部门进行算法备案以及进行相应的公示。
此后,相关部门制定了诸多政策,不断完善算法备案的相关规定。2023年7月,国家网信办等七部门联合公布了《生成式人工智能服务管理暂行办法》;2024年3月1日,全国网络安全标准化技术委员会发布了《生成式人工智能服务安全基本要求》,进一步规定了生成式人工智能服务在安全方面的基本要求,包括语料安全、模型安全、安全措施、安全评估等。
相关政策的出台与施行,意味着对算法大模型行业建立规范、合理、合法的市场秩序已成为紧迫要求,备案清单数量上升就是最直接的一大表现。
从算法备案主体类型来看,分为“服务提供者”和“服务技术支持者”两种。
《互联网信息服务深度合成管理规定》中所称的深度合成服务提供者,是指提供深度合成服务的组织、个人;深度合成服务技术支持者,则为深度合成服务提供技术支持的组织、个人。简言之,服务提供者主要针对的是C端APP,即面向消费者市场;服务技术支持者主要针对的是B端服务,即面向企业市场。
截至目前公布的5批共940条备案清单中,服务技术支持者有290家,而服务提供者则近690家,是前者的两倍有余。
就地域而言,算法备案公司分布特征明显,主要集中在北京、上海、广东、浙江四个城市和省份。此外,江苏、安徽、四川、福建、湖北等地也有一定数量的算法公司。
2023年5月28日,中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》显示,中国10亿参数规模以上的大模型已发布79个,主要集中在北京和广东,其中北京38个大模型,广东20个大模型。北京、广东、浙江、上海等地的大模型数量最多。这一数据与算法备案清单里的公司地域分布较为一致。
除上述地区经济发展水平较高、互联网和科技产业较为成熟等因素,人工智能相关政策出台也为这些公司的成长提供了土壤。自2023年5月起,北京、上海、深圳、成都等多地陆续出台一系列政策文件,如《北京市促进通用人工智能创新发展的若干措施》等,以鼓励人工智能发展。
此外,人才也是算法大模型发展的重要支柱。北京、上海、广东等地吸纳了大量算法大模型人才,为大模型研发提供关键智力要素支撑。中国科学技术信息研究所所长赵志耘表示,“通过大模型的论文发布,我们可以看到中国大模型的学术影响力正在逐步形成。从区域影响力来看,北京、广东、上海三地无论是论文数量还是论文引用量都在国内最高。”
二、中国AI大模型算法的主要应用场景及技术是什么?
通过对5批次共940条境内深度合成服务算法备案信息的主要应用场景以及算法名称分析发现,在应用场景方面,“文本生成”“图像生成”“对话生成”以及“智能对话”的排名遥遥领先于其他类型的应用场景。
在算法名称方面,“模型”“文本”“智能”“ai”以及“图像”的排名远超其他类型的算法名称。“语音”以及“内容”的出现频次分别为52次与49次,处在第二梯队。
由此可见,目前国内AI大模型企业的深度合成服务算法技术主要集中于文本、图像以及语音等内容生成方面,并主要应用于AI大模型的文本生成、图像生成以及对话生成等场景上。
然而值得注意的是,我们发现5批次共940条境内深度合成服务算法备案信息的主要应用场景中,涉及到与虚拟数字人相关的场景如“数字人生成(10次)”“数字人视频生成(7次)”“数字人合成(6次)”以及“虚拟人生成(6次)”的频次共29次,可见AI技术在虚拟数字人中的应用不容小觑。而这与元宇宙背景下,虚拟数字人产业迅猛发展密不可分。
虽然元宇宙的神话破灭,但虚拟数字人的概念仍在继续。《2024年中国虚拟数字人产业发展白皮书》报告数据显示,2023年中国虚拟人带动产业市场规模和核心市场规模分别为3334.7亿元和205.2亿元。
随着虚拟数字人产业的火热发展,AI大模型技术由于具备能够显著增强虚拟数字人的智能化交互能力、降低AI数字人生产门槛以及通过导入专业知识库为数字人赋予“超级大脑”等优势,在数字人领域的应用也日渐广泛。
其中,北京红棉小冰科技有限公司(以下简称“小冰公司”)的小冰数字人最具典型性。作为目前国内AI赛道融资总额超10亿元的独角兽企业,2023年5月16日,小冰公司宣布启动“GPT克隆人计划”,目前发布了面向个人用户的首个虚拟人类产品线,用户可以自主通过小冰框架,创造并训练其拥有的人工智能主体,发展前景广阔。
三、谁在做算法?
对940条深度合成算法备案清单背后企业主体进行分析后发现,备案清单持有数量排名前十的企业主体分别为:网易(22)、腾讯(17)、商汤(13)、阿里巴巴(11)、百度网讯(11)、红棉小冰(11)、智谱华章(9)、抖音(9)、出门问问(7)、华为(7)。
排名前十的企业主体共持有117条备案清单,约占总清单数量12%。从“二八法则”的标准来看,深度合成算法领域并未进入垄断集中阶段,市场主体多元,竞争较为激烈,行业仍有较大发展空间和潜力。
另外,值得关注的是,头部企业不满足于面向用户直接提供算法产品,还依托自身强大的技术实力和经济实力,积极成为技术供给方,服务于外部企业。
在117条备案清单中,前十名企业主体作为服务提供者角色的仅47条清单,占比40.1%;而作为服务技术支持者的达70条,占比59.8%。这与整体的算法备案清单企业主体类型情况相反。
在排名前十企业中,网易、腾讯、阿里巴巴、百度快讯、抖音都是国内知名互联网公司,涉及业务多元,他们研发的深度合成算法应用方向也较为广泛,涵盖语音、智能对话、图像生成、虚拟人等。华为一直以技术闻名,除将智慧语音助手(小艺)用于华为自身终端外,华为算法主要服务于内容生成、虚拟人、数字人方向的企业。
前十企业中,有几家知名度相对较低的企业,如智谱华章、出门问问、红棉小冰。在众多“大型企业”里,有两家中型企业能闯进算法大模型的行业前列,成为后起之秀,再次佐证了算法这片蓝海的无限可能。
事实上,在AI大模型赛道火热发展的表象之下,AI大模型对于算力的庞大消耗、对预训练数据的极高要求、对算法工程团队人才的极大需求以及对现金流的迫切需要,是AI大模型企业所共同面对的问题。此外,AI大模型的商业模式仍在探索中,未业的发展,仍有待持续观察。
参考资料:
1. 澎湃:北京12天连发3份政策文件,对全国加快发展AI有何示范效应?
https://www.thepaper.cn/newsDetail_forward_23395122
2. 澎湃:中国10亿参数规模以上大模型已发布79个,集中在北京和广东
https://www.thepaper.cn/newsDetail_forward_23259967
3.真的,没见过这么“傲娇”的AI公司
https://mp.weixin.qq.com/s/WBQrMGtq7OtOtjmbAQDmVA
4. 人工智能大模型地图研究报告发布中国大模型数量居全球第二
https://www.shio.gov.cn/TrueCMS/shxwbgs/ywts/content/d2af8f9d-d0e3-4a3f-b49f-32fe22a91c11.html
5. 2025年核心市场规模有望达480.6亿元AI数字人何以成为行业“香饽饽”
https://app.xinhuanet.com/news/article.htmlarticleId=ddb6e5c41807de941b3dfc5e1d3aa6d7
往 期 推 荐