智谱AI专家交流纪要
Q1:目前大模型赛道可以粗略划分为偏重度研发的技术派和偏能快速商业化、 变现的市场派,所以想请教下智谱的战略定位?
A:首先, 创新是从思想、理论、方法、技术,到产品、市场。市场派关注更后端的产品和市场, 技术派关注前端的理论、方法和技术, 这其实是整个链条上不同层面的事情,不存在说非此即彼的关系。
只是有的公司会选择将大部分精力放到产品和市场上, 有的公司会把精力放在整个链条上, 重视理论、方法、技术、产品、市场的全链条创新。不同公司会从自身角度出发,做出不同的选择。智谱 AI 恰恰是属于后者。理论、方法、技术、产品、市场的全链条我们都坚持自研和创新。智谱是由清华大学计算机系技术成果转化而来的公司,我们也全面对标 OPENAI。我们不仅拥有世界领先性的AI 技术水平,同时也在商业化层面获得了很大的进展。在 2023 年,智谱 AI 已经合作了 2000 多家生态合作伙伴, 实现超 1000 个大模型规模化应用, 与超 200 家企业进行深度共创,期望实现全链条创新。
Q2:智谱 AI 当前的综合能力水平,以及相对于海外大模型的优势特点在哪里?
A:性能接近海外顶级模型。我们 2024 年 1 月份发布了基座大模型 GLM-4,整体性能相比上一代大幅提升, 逼近 GPT-4。如果做一个比较量化的对比, 我们当时对标的对象是 GPT-4,其性能的对比可以在很多方面上做到 95% 左右。在比如中 文对齐的任务下, 我们甚至可以略微超过它, 这就是我们与世界顶级水平能做到的相对水平(根据最新的海外伯克利Arena-Hard基准测试,GLM排名仅次于GPT-4 Turbo 和 Claude 3 Opus,在国内外模型中均处于领先地位)。也欢迎大家下载智谱清言体验下模型能力。
智谱是投入时间比较早,纯国产自研。我们从 2020 年就开始全面投入到大模型的研发里边, 拥有完全自主、自研、国产化的千亿级模型算法。并且, 我们实现了全栈国产化,从底层到模型层、应用层、应用接口 PaaS 层等,实现全栈的自主研发。另外, 在整个大模型体系里边, 除了语言模型, 还有文生图模型、图生文模型、代码模型等多种模型。跟目前全球最先进的 OpenAI 相比, 我们的模型种类跟它形成了一一对标。
关于商业模式:
Q3:可不可以这么理解, 由于公司全栈自研, 底层安全, 所以在商业化上取得了头部的成绩?
A:是的。智谱确实做了比较多的商业化探索, 我们在 2023 年合作了 2000 多家生态合作伙伴,实现超 1000 个大模型规模化应用,与超 200 家企业进行深度共创。
具体的应用案例比如说, 德勤这样的会计师事务所用我们的大模型写报告、做数据分析等。金融机构用我们的大模型做客户经理赋能,还有做行业研究等工作。我们的客户还包括蒙牛、上汽等行业龙头企业,这也给了我们在行业里很好的势能, 把大模型应用在千行百业。 尤其是在要保证数据安全和本地部署的企业。
安全角度来说, 智谱 AI 作为国内唯一全国产自研的大模型企业, 我们推出的 GLM 国产芯片适配计划, 面对不同类型的用户不同类型的芯片提供不同等级的认证和测试, 可真正实现安全可控。今年 3 月, 北京市人工智能产业投资基金参与我们最新的一轮融资, 也算是对我们的一种认可, 这个优势, 从某种意义上可以完全 满足央国企以及有特殊要求的大型企业。
Q4:商业化方面,我们总被认为是偏 2B 的企业, 2C 方面怎么考虑?
A:我们认为 C 端和 B 端相辅相成,只是从商业模式上当前 B 端需求更成熟付费意愿更强, C 端是未来我们布局的重点。B 端保证了我们基础的规模化收入,并且 B 端收入还在迅猛增长, 现在我们这两块业务是属于齐头并进的发展态势。我们认为,大模型是提供基础能力,基于大模型的开发未来会出现 2C 端的大模型杀手级应用,大模型会在生产端渗透和赋能, 跟千千万万的场景结合。所以我们希望跟更多的应用开发者合作, 研发出各种各样的垂类模型, 把大模型发挥出最大的效果。
比如今年 1 月,智谱清言上线的 GLMs 个性化智能体定制功能,能够根据用户意图, 自动理解、规划指令以完成复杂任务。用户用简单提示词指令就能创建属于自己的 GLM 智能体,让任何人都能实现大模型的便捷开发。最近,智谱 AI 成为本届中关村论坛“科技办会合作伙伴 ”,基于智谱清言产品智能体能力, 打造了“2024 中关村论坛年会 ”会务智能体,为与会者提供全面实时的会议信息、日 程查询、议题概览等服务。 类似这样的智能体在智谱清言已经有超过 30 万个,智谱开放平台的官方调用工具(包括搜索工具 web search、函数调用 function call 和知识库 retrieval )累积使用已超过 3 亿次, 知识库沉淀超过 100 亿字内容。
Q5:OpenAI 面向 C 端是收费的, 现在国内面向 C 端的大模型应用还都没有收费,我可不可以这么理解, 正是由于国内 C 端付费现状, 所以我们 B 端的规模化收入保证了我们独特的先发或者竞争优势?
A:一定程度是的, B 端的成熟商业模式让我们在盈利模式上领先于国内大模型 公司, 相对于纯研发, 我们有一定的自我造血能力, 且能够获取 B 端客户的用户 需求做升级迭代。
关于文生视频模型
Q6:文生文大模型海内外呈现百花齐放的状况,以闭源为主的 OpenAI 的 GPT4和 Google 的 Gmini,以及开源为主的 META 的 lama2 和 3,而国内大模型大部分 也是基于开源的模式下进行再开发,但文生视频模型只有 sora 一枝独秀且是闭 源,当前国内文生视频大模型的突破关键和差距在哪里?
A:文生视频目前处于一个快速发展的阶段,预计今年将是文生视频大模型的爆发期,国内公司在文生视频技术方面的客户需求非常多样, 从电影拍摄到短视频、游戏制作等。智谱也将通过使用更高质量的数据和更大的参数,开发高质量的文生视频产品。
虽然 Sora 商业化还需要时间且当前未开源,国内此前落地的文生视频大模型基本上都是基于 diffusion 的扩散模型生成 4s 的“类视频”,4 月份朱军老师团队VIDU 的发布, 意味着国内开始真正实现突破, 时长达 16s,且一致性和逻辑性都比较好。他们的创始团队主要来自清华, 我们也都很熟悉, 智谱也参与了生数科技的投资,非常高兴看到他们在这个方向取得了很好的进展。
发展突破的关键,从技术选择和训练所用的高质量视频素材语料两个方面讲。
技术路线上,Transformer 与 Diffusion 的结合架构如何在效率和效果上进行优 化,如何解决连续帧之间的抖动问题, 如何在满足高分辨率的同时实现高一致性的长序列生成, 如何获取高质量数据泛化到更多更细节的真实场景, 都是技术上
需要解决和通过大量实验试错的问题。
在数据集方面,此前 Sora 被评价模型对摄影术语(跟拍、平移、镜头切换)的 理解有限, 所生成的视频后期还需要对视频素材进行超分处理。公司会注重更全面的优质数据版权与使用,以做出高质量的文生视频模型。
出于公司一如既往与行业共创的战略, 我们同时也正在与行业头部公司深度探讨文生视频的行业应用与商业化落地,目前进展很快。
关于生态建设
Q7:智谱 CEO 曾提到“希望打造一个大模型生态,与生态中合作伙伴携手共进,把生态圈越做越大,这是更长远的商业化目标。”当前面壁智能、生数科技、无问芯穹等多家 AI 明星创业公司都出现智谱的身影,其具体战略和规划是怎样?
A:智谱 AI 一直专注技术实力, 对于中国的 AI 大模型创业圈, 清华大学背景团队的技术优势相对突出,智谱 AI 本身是由清华大学计算机系的技术成果转化而来,源自清华大学知识工程(KEG)实验室,投资 AI 创业公司是顺理成章的。已投资十多家 AI 大模型产业相关创业公司 (面壁智能、生数科技、幂律智能核心团队等皆源自清华) ,投资案例的质量和数量处于行业领先位置。
智谱是少数极其看重生态圈建设的大模型公司, 因为就生态而言, 仅仅只有强大基座模型是不够的, 只有打通大模型产业生态圈上下游, 与客户、不同生态位的合作伙伴一道, 才能推动中国人工智能产业全面发展。包括 GPU、服务器、算力集群,以及再往上还有底层软件、算力调度平台的支撑,到生态下游, 还有各场景中的应用。
智谱的对外投资,不仅仅是财务投资, 更多是通过各种形式与产业关键优质公司 “交朋友”,方式包括针对大模型创业者推出 Z 计划,以及相关公司投资持股、业务绑定, 此外我们还有针对开源社区的开源基金, 以及 CCF-智谱大模型基金、
中文信息学会 SMP-智谱大模型交叉学科基金等。 希望不断培育跟智谱大模型契合的生态体,在中国大模型的商业化、生态上迎来新进程。
Q8:展望未来, 个人认为从 aigc 到远景 AGI,会极大的解放生产力和想象力, 会 极大的带来信息平权和促进自由平等, 想问下晓韬, 您认为 AGI 什么时候能够真 正到来?
A:2024 年应该是向 AGI 发起冲锋的起始年份。Agent 是通往 AGI 的关键,智谱 最新一代 GLM-4 模型重点提升了 Agent 能力,在规划和执行方面相比之前几代模 型提升明显, 并且支持网页搜索、工具调用、代码执行、数据分析等操作, Agent 能力大大提升。在这一年里大概率可以看到比较实在的能够解决大家现实问题的应用出现。