核心观点
3 月 16 日,百度正式发布了文心一言,能够与人对话互动,回答问题,协助创作。- 一些 NLP 人机对话中基础的问答、总结、推理、创作能力基本具备;
但同时,相比 GPT4 功能文心一言仍有较大差距,目前水平约在 GPT3 左右。发布会中有部分体现大模型强大指出的核心功能尚未充分展示。包括多轮对话、代码能力、长文本理解等 GPT-4 具有的能力,文心一言未进行展示。同时目前文心一言仍未全面公测,企业和个人用户可以在官网申请邀请后试用。
即从参数量、迭代路径看,国内 NLP大模型水平介于 BERT 和 GPT-3 之间,与海外差距在 2-3 年。2021 年 GPT-3 推出时,代码、长文本、语境等能力也较弱。在此后 1 年中,OPEN AI 快速迭代增加了 codex、RLHF 等尝试,并继续优化了 PPO,在 2022 年推出 instructGPT,其后能力才出现较大提升。本文认为百度文心已经初步具备 LLM 底座,期待后续迭代。技术上,本文分析了百度 NLP 大模型 ERNIE 1.0-3.0 迭代。- ERNIE 1.0到 3.0 完整迭代,截至 3.0 已是相对可用状态,3.0 模型结构便于下游二次开发部署;
- 基于 BERT 结构基础加上了知识图谱等特色功能,在部分规则训练场景有更好可控性;
- 国内领先的开源 AI 训练框架,较强的算力基础设施。
但同时,我们也看到现阶段 ERNIE 底座的一些不足:
模型结构仍然基于 BERT,但目前海外巨头主流结构转变为 GPT 为代表的 decoder-only,未来百度是否会在模型结构上继续迭代?
根据 3 月 16 日百度文心一言发布会,目前百度在 Prompt 和 RLHF 已经掌握方法论,但实际训练量仍然有待提升;
百度都使用了有特色是知识图谱训练,这一方式可以有效降低训练模型所需要消耗的算力。但当大语言模型达到千亿或者更高参数级别时,似乎自然具备了知识图谱训练下的能力。
ERNIE 使用了百度内部特色中文数据,提升模型中文能力。但是百度体系内高质量语料库相比庞大的英文互联网语料库仍然不足。
计算机行业:建议重点关注跨模态应用,包括多模态应用
百度“文心”大模型:纯 NLP 能力国内领先,跨模态也有较多布局。
应用场景涵盖:NLP 大模型、CV 大模型、跨模态大模型、生物计算大模型、行业大模型。API 包括了:
图 1 百度文心大模型和多行业工具平台
01
从 NLP 基础底座 ERNIE 看文心一言核心能力- 具备语言理解能力以及写小说、歌词、诗歌、对联等文学创作能力;
包括医疗、金融、跨语言、代码、搜索等领域都有布局。百度 NLP 核心能力是 ERNIE 大模型,类似 GPT 之于 open AI。特点是基于知识图谱强化,基于中文训练。另外需要关注百度在模型结构上的选择、和对于是否人类反馈(prompt 和 RLHF)的选择,以及百度使用的中文语料库高质量数据是否足够。NLP大模型 ERNIE 2019年开始多轮迭代,起点是 2019年的1.0,受到google BERT的较大启发。ERNIE 1.0 1 在 2019 年 4 月推出,模型结构基于 BERT 模型的进一步优化,在中文的 NLP 任务上得到了当时较好的结果。ERNIE1.0 选择的模型结构是类似 BERT 的 encoder-only。ERNIE 1.0 类似 BERT,使用了多层编码器结构的 transformer,模型大小也与 BERT 相同,12 个编码器层,768个隐单元,12 个注意力头(12 encoder layers, 768 hidden units and 12 attention heads)。图 3 ERNIE 1.0 使用了 encoder-only 的结构,和 BERT 类似但这一结构区别于GPT,且目前 google 也开始从 encoder-only 过渡到encoder-decoder 再到 decoder-only,所以后续百度是否仍然沿用这一模型结构迭代,值得关注。- 此前在 2018-2021 年,谷歌路线为 encoder-only ( 只 有 编 码 器 )或encoder-decoder(编码解码器),而同一时期,Open AI一直基于 decoder-only(只有解码器)路线迭代自己的 AGI 生成式大模型。
- 直到 2021 年 10 月,Google 推出 FLAN(1370 亿参数),并从此开始重新转向只有 decoder-only 模型,还提出了 ChatGPT 用到的 Instruction Tuning 概念。2023 年Google 的最新跨模态大模型 palm-e 在 NLP 部分也使用了 decoder-only 结构。
- 即中间有约 20 个月时间,Google 并未使用 decoder-only 结构,部分 AI 学者认为这是 Google 在 AGI 产品上暂时落后于 Open AI 的原因之一。区别于 BERT 的特在在于“先验知识”和“异构数据整合”。
特点一:ERNIE 1.0 区别于 BERT,在 mask 上采取不同做法,特点是“先验知识”的学习。
在绝大多数的研究中,仅仅通过上下文来预测丢失的单词并对其进行建模。这些模型没有考虑句子中的先验知识。如下图案例,在句子“哈利·波特是由罗琳(J. K. Rowling)创作的一系列幻想小说”中。哈利·波特(Harry Potter)是小说的名字,而罗琳(J. K.Rowling)是作家。BERT 可以通过实体内部的单词搭配来预测实体 Harry Potter 的缺失单词,而无需借助较长的上下文。
ERNIE 则假设如果模型学习更多有关先验知识的信息,则该模型可以获得更可靠的语言表示。ERNIE 不是直接添加知识嵌入(knowledge embedding),而是隐式地学习有关知识和较长语义依赖性的信息,例如实体之间的关系,实体的属性和事件的类型,以指导单词嵌入学习。图 4 ERNIE1.0 和 BERT 在 mask时选取了不同方式收集百度贴吧、百度新闻、百度百科的混合语料,其中百度百科包含以正式语言撰写的文章,是模型训练的强大基础;百度新闻提供了最新的电影名、演员名、球队名等;百度贴吧中的每个帖子可以看作是对话,被用于 DLM 任务。ERNIE 1.0 做到在多项中文任务上优于 BERT。且通过消融研究(Ablation Studies)证实,知识整合和对异构数据的预训练都能使模型获得更好的语言表示。图 5 Results on 5 major Chinese NLP tasks继续迭代,目前版本 ERNIE 3.0 已在中文任务上取得较好效果。2019 年 7 月百度推出 ERNIE 2.0 4 ,该框架通过不断的多任务学习来逐步构建和学习预训练任务,最大限度地从训练语料库中提取词汇、句法和语义信息。2021 年 7 最新大版本是 ERNIE 3.0 5 。ERNIE 3.0 在模型结构上的思路渭:NLP 不同任务范式对底层特征提取要求一致,但对顶层具体特征要求不一致,其中 NLP 学习语义连贯性,而自然语言 NLP 生成则期望进一步的语境信息。如下图,ERNIE 3.0 不同的任务范式能够共享在一个共享网络中学习的底层抽象特征,并分别利用在他们自己的特定任务网络中学习的特定任务顶层具体特征。该框架还支持随时引入各种定制任务,因此可以更好的支持下游二次开发。当给定一个新任务时,ERNIE3.0 框架可以根据以前的训练参数逐步训练分布式表征,而不需要从头开始训练。特点二:大规模知识图谱学习,通用知识-文本预测(UKTP)任务百度 ERINE 3.0 认为,google T5 和 open ai GPT-3 尽管很成功,但是在没有引入语言知识和世界知识的情况下对普通文本进行训练的。为了解决这一个问题,ERNIE 3.0 在一个由普通文本和大规模知识图谱组成的 4TB 语料库上用 100 亿个参数训练该模型。百度构建中文文本语料库,存储量达 4TB,分 11 个不同类别。语料库包含 ERNIE 2.0(包括百科、Feed 等)、百度搜索(包括百家号、知乎、贴吧、经验)、网络文本、QA-long、QA-short、Poetry 2&Couplet 3、医疗、法律、金融等领域的特定数据以及百度知识图谱(超过 5000 万条事实)。特点三:既有有监督的微调(fine-tuning),也有零样本、少样本学习。在数学、翻译等任务中使用了微调。在中文新闻分类、语义相似度等任务中零样本学习,也取得较好效果。最终经验结果表明,该模型在 54 个中文 NLP 任务上的表现优于最先进的模型,其英文版本在SuperGLUE 基准测试中获得第一名,比人类表现高出0.8%(90.6%对89.8%)。百度底座的其他优势,paddlapaddle 国内第一个开源神经网络框架。2016 年 8 月,百度在 Github 上 100%开源内部使用多年的深度学习平台 PaddlePaddle。- 能够应用于自然语言处理、图像识别、推荐引擎等多个领域,其优势在于开放的多个领先的预训练中文模型,适应中文环境。
超大规模集群分布式计算能力。
paddlepaddle 设计研发了具备更强扩展能力的端到端自适应大规模分布式训练架构 6 。该架构可以针对不同的模型和硬件,抽象成统一的分布式计算视图和资源视图,并通过硬件感知细粒度切分和映射功能,搜索出最优的模型切分和硬件组合策略,将模型参数、梯度、优化状态按照最优策略分配到不同的计算卡上,达到节省存储、负载均衡、提升训练性能的目的。
在此前文心一言的压力测试中,亚洲目前最大的单体智算中心山西阳泉百度智算中心,已经将算力提升到每秒可以完成 400 亿亿次浮点运算。百度在 NLP 大模型上走出了特色道路,并且毫无疑问是国内第一梯队水平,优势总结如下:- ERNIE 1.0 到 3.0 完整迭代,截至 3.0 已是相对可用状态,3.0 模型结构便于下游二次开发部署;
- 基于 BERT 结构基础加上了知识图谱等特色功能,在部分规则训练场景有更好可控性;
- 国内领先的开源 AI 训练框架,较强的算力基础设施。
但同时,我们也看到现阶段 ERNIE 底座的一些不足:
- 模型结构上仍然基于 BERT,但目前海外巨头主流结构转变为 GPT 为代表的decoder-only,未来百度是否会在模型结构上继续迭代?
- 截至 3.0,百度仍然使用 fine-tuning 等传统方法对细分任务微调。而国际常见做法是 Prompt 或者 RLHF(人类反馈强化学习)。根据 3 月 16 日百度文心一言发布会,目前百度在后者已经掌握方法论,但实际训练量仍然有待提升;
- 从 1.0 到 3.0,百度都使用了有特色是知识图谱训练,这一方式可以有效降低训练模型所需要消耗的算力(3 月 16 日文心一言发布会也提到了这一特点)。但当大语言模型达到千亿或者更高参数级别时,似乎自然具备了知识图谱训练下的能力。是否“暴力出奇迹”才是 AI 大预言模型的最终答案?
- 百度 ERNIE 使用了百度内部特色中文数据,提升模型中文能力。但是是否百度体系内高质量语料库相比庞大的英文互联网语料库仍然不足?
尽管有以上不足,我们仍然认为百度在 NLP 能力上属于国内第一梯队,也期待后续模型的进一步迭代提升。02
3 月 16 日,百度文心一言正式发布,发布会上百度展示了多项能力。本文认为:一些 NLP 人机对话中基础的问答、总结、推理、创作能力基本具备。文言一心可以以问答式方式文学作品作者的详细信息,总结概括文学作品的主要内容,并可以连贯生成如何尝试续写《三体》。该 AI 采用了知识增强和检索增强技术,在训练过程中采用了 5500 亿知识图谱数据。文言一心可以智能的给公司起名,提供公司的服务Slogan,可以根据具体需求创造数百字的新闻稿。创作基本连贯清晰,理解了提问者意图。发布会上展示了根据成语的白话理解反推询问的成语,用成语写藏头诗。数学问题一直被认为是 nlp 是否具有初级逻辑能力的考查标准。发布会中示范了一个简单数学题,文心一言答案展示了部分思维链(chain ofthought)能力。文言一心特色功能是对话中直接文生图,根据一段简单的文字生成视频(可以在百家号中使用),根据内容生成粤语、东北话、闽南话等相关方言的语音。以上跨模态功能是目前 GPT-4 未整合的。图 13 根据一段话直接生成视频
但同时,我们认为发布会中有部分体现大模型强大指出的核心功能尚未充分展示。包括多轮对话、代码能力、长文本理解等 GPT-4 具有的能力,文心一言未进行展示。
03
文心一言商业化:拉动百度搜索、小度、智能驾驶和云,赋能传媒、软件、金融等行业一方面,与现有的搜索、小度、智能驾驶、云、投资公司爱奇艺等业务结合,提升入口流量价值和云的份额;另一方面,文心一言通过牵手合作伙伴,建立产业生态,相关接入公司为 AI 提供落地场景,也有望借助 AI 提升运营效率或产品体验,尤其是在内容(文本、影视、游戏、营销等)生成、数字人、办公、智能家居、金融等领域。百度搜索,提供交互和聊天体验;微软证明了搜索引擎+类 GPT 产品是可行路线。2023年 2 月 8 日,微软发布基于 ChatGPT 的新版 EDGE 浏览器和 Bing 搜索引擎,在提供传统搜索内容的同时,用户可以与搜索引擎进行对话交流,获得更全面的答案,3 月 8 日微软宣布,在超过百万的新 Bing 预览用户推动之下,Bing 每日活跃用户已突破 1 亿。同时,他还坦言:在新版 Bing 的数百万活跃用户中,有大约三分之一是新用户。虽然 ChatGPT或减少搜索广告的加载率,对于谷歌而言是个风险,但对于份额原来不高的微软 Bing 而言反而是一个提升流量入口地位的机会。百度始终在中国搜索引擎市场占据龙头地位,但近年来移动端站内搜索对传统的搜索引擎有分流,文心一言与搜索引擎的结合有望加强搜索的入口低位。百度的搜索份额保持在 70%-80%之间;PC 时代,搜索引擎是互联网的流量入口,行业竞争格局相对稳固。但移动互联网时代,流量分散在各互联网巨头的头部 App 中,流量相对分散,且各个 App均积极布局移动端的站内搜索分流 PC 端搜索和手机百度搜索量,尤其是抖音、微信的站内搜索。
小度:小度将融合“文心一言”的全面能力,提升小度与用户进行多轮对话的体验,打造针对智能设备场景的人工智能模型“小度灵机”,并应用到小度全系产品。小度科技原是百度旗下智能生活事业群组业务,后独立融资,作为国内市场规模最大的对话式人工智能操作系统和全球智能屏最大的出货厂商,小度科技已发布多款小度人工智能产品,包括智能音箱、智能屏、智能耳机,以及语音车载支架、电视伴侣、智能灯泡、智能红外遥控、智能按钮等周边产品,还拥有小度助手(DuerOS),小度与诸多智能设备厂商建立合作。自动驾驶&智能座舱:文心一言背后大模型应用至自动驾驶将加深车辆对复杂城市路况的理解;文心的智能语音能力将搭载到 Apollo 智舱系列产品,提升人车语音交互体验。集度接入文心一言大模型后,文心一言的车企朋友圈不断扩大,岚图、红旗、长城、东风日产、爱驰、零跑、吉利汽车、海马汽车等近 10 家车企加入文心一言的朋友圈。爱奇艺:双方共同探索将 AIGC 技术应用于爱奇艺内容搜索、内容宣发、内容创作工具、小说创作等业务。此次合作将把爱奇艺丰富的在线视频娱乐资源与百度的前沿技术相结合,进一步赋能爱奇艺,拓展其在影视内容创意、制作效率、用户体验等方面的生产能力。长视频具有项目周期长、人力密集型的特点,AI 有望提升内容生产的工业化程度。商业化-对外:结合垂直领域 Know-how,实现垂直领域赋能。将通过百度智能云对外提供服务,目前已有各领多家企业进入文心一言生态圈。涵盖媒体内容、智能设备、金融、汽车、软件服务、智能家居等领域,涵盖融媒体(游戏 营销 影视 媒体)、智能设备、金融、汽车、软件服务、数字人、金融等领域;其中融媒体类接入最多;包括传媒上市公司蓝色光标、 风语筑、爱奇艺、掌阅科技、华策影视、值得买、巨人网络子公司世优科技等。
百度云在 AI 领域已经积累多年,对外服务加速,将打开智能云业务收入及利润空间。2022 年,百度智能云推出“云 智一体 3.0”架构,涵盖底层的芯片(昆仑芯片)-深度学习框架(飞桨 PaddlePaddle)-大模型(文心大模型)-应用(搜索等)。中国 AI 公有云服务市场增速均高于中国整体 AI 软件市场的增速,主要玩家包括百度云,阿里云,华为云和腾讯云等,百度智能云连续四年居第一,并且在人脸人体、图像视频两个规模最大的子市场继续保持第一,百度云今年对百度的业务贡献在增加。百度核心非在线营销收入保持正增长;通过复用标准化解决方案以及从低利润率项目中转移,百度智能云利润率持续优化,22Q4 利润率提升。展望后续,随着文心一言加速对外服务,智能云有望从提供基础的算力、存储等业务向智能服务转型,打开收入及利润空间。