【国君海外科技】GPT裂变时刻 ——中美科技巨头的AI大模型竞赛
报告导读
AI产业临界点来临,中美科技巨头军备竞赛全面启动,算力需求具备高确定性。
投资要点
AI技术发展多时,深度学习时代AI浪潮开启。AI研究领域最早源自于1943年神经元模型诞生,并于1956年达特茅斯会议正式确立;随后AI技术先后进入专家系统时期(1970s-1980s)、机器学习时期(1990s-2000s),目前AI领域已迈入深度学习时期(2010s-至今),深度神经网络、自然语言处理成为深度学习时代的技术内核,大型科技公司和研究院开启深度学习热潮,共同推动AI产业迎来变革。
全球科技巨头争相布局,AI技术成果不断涌现。海外科技巨头Open AI、谷歌、Meta、苹果、亚马逊、微软、英伟达、Adobe、特斯拉布局AI领域多时,Open AI GPT-4,微软365 Copilot,英伟达 DGX Cloud、Adobe Firefly等旗舰产品落地推动产业变革;国内科技巨头腾讯、百度、字节跳动、华为、阿里巴巴等持续研发投入,百度文心一言率先推出,腾讯“混元”AI大模型、华为“盘古”AI大模型、阿里达摩院“通义”大模型等有望加速引爆AI热潮。
GPT裂变时刻,中美科技巨头军备竞赛全面启动。AI产业发展至今,其发展进程已经达到了大量行业应用革新的临界点,在绘画、设计、办公、广告和硬件设施等为代表性领域,产生了广泛的应用和显著的影响。AI大模型方向上,受限于财力要求、硬件设施、人才储备等门槛存在,小型人工智能厂商或初创企业难以追赶,AI大模型将成为中美科技巨头间的军备竞赛。
投资建议:AI产业发展进入临界点,中美科技巨头竞赛下算力需求确定性高。通过系统回顾AI技术发展历程、主要科技巨头AI布局及其主要成果,我们认为AI产业发展的临界点已经来临,应用变革层出不穷,在财力要求、硬件设施、人才储备、舆论关注、商业模式冲击等要素影响下,AI大模型将成为中美科技巨头间的军备竞赛,算力层面的需求确定性最高,推荐标的联想集团(0992.HK),受益标的英伟达(NVDA.O)、微软(MSFT.O)。
风险提示:AI技术迭代进度不及预期;应用落地进度不及预期;国内AI供应链波动风险等。
目录
报告正文
1
AI技术发展历程
1.1. 早期AI时期(1943 – 1960s)
► 1.1.1 神经元模型
神经元模型的诞生为AI研究领域的出现奠定了理论基础。1943年,心理学家沃伦·麦卡洛克(Warren McCulloch)和沃尔特·皮茨(Walter Pitts)首次提出了被称为神经元计算的数学模型(Neural Model),该模型将生物神经元的工作原理简化为二进制阈值逻辑,这也成为了后续AI学科最重要的基础之一。
► 1.1.2 图灵测试
图灵测试引发机器人是否能具备人类的智能思考。1950年,英国计算机科学家艾伦·麦席森·图灵在其论文《Computing Machinery and Intelligence》中提出了著名的图灵测试实验(Turing Test),其目的是通过自然语言对话来判断计算机是否能产生与人无法区分的智能,这一实验也引发了大规模的思考:机器人能够否过编程语言从而具有人智。
► 1.1.3 达特茅斯会议
达特茅斯会议确立AI成为一个研究领域。1956年,John McCarthy在达特茅斯会议(Dartmouth Conference)上首次提出AI概念,标志着AI从此作为了一个独立的研究领域的诞生。
► 1.1.4 符号主义
早期AI主要学派符号主义是一种基于逻辑推理的智能模拟方法。符号主义(Symbolic)也被称为是逻辑主义,是早期AI的主要学派,其认为人类认知的基本单位是具有意义的表示符号,而智能则体现在符号的表示和运算过程中。1955年,艾伦·纽厄尔(Allen Newell)和哈伯特·西蒙(HerBert A. Simon)首次提出了逻辑理论机(Logic Theorist)的概念,这是第一个依赖符号操作的AI程序。
1959年,他们进一步开发了通用问题求解器(General Problem Solver)程序,该程序能通过递归分解方式解决复杂问题。受到符号主义研究的启发,约瑟夫·维森鲍姆(Joseph Weizenbaum)于1966年开发了ELIZA,这是一个能模拟心理治疗师并根据用户描述提供诊疗意见的程序。
► 1.1.5 感知机与神经网络
感知机是AI经典理论神经网络的早期代表模型。1958年,美国心理学家弗兰克·罗森布拉特首次引入了感知机模型(Perceptron),作为早期神经网络理论(Neural Network)的典型模型,它尝试模拟生物神经元的功能来进行实验。然而,感知机仅具有单层神经元结构,并进行线性分类,但难以处理复杂的非线性问题。在感知机的基础上,后续神经网络研究发展出多层结构和更强的表达能力,能应对更复杂的非线性问题。通过优化训练算法和权重调整,神经网络实现了更有效的数据拟合和分类。
1.2. 专家系统时期(1970s - 1980s)
► 1.2.1 专家系统
专家系统尝试利用过往经验来把计算机程序训练成某一个领域的专家。专家系统(Expert System)作为AI研究起步阶段的重要代表,是一种模拟人类具体领域专家的知识和经验的智能计算机程序,通过推理模型,解决那些需要人类专家才能处理的复杂问题,其核心是知识库(领域专家的知识和经验)和推理机(根据知识库内容对问题进行求解)。1970年代初,斯坦福大学AI研究团队开发了DENDRAL系统,利用质谱数据预测分子结构,成为历史上第一个专家系统。它证明了计算机程序在解决实际问题上具有专业知识吸收能力。在长时间研发后,斯坦福大学的另一个研究团队于1972-1978年间开发了MYCIN系统,它根据病人症状和实验室检查结果提供专家级别的诊断和治疗建议,成功率达到69%,与当时美国临床医生平均水平相当。1980年代,麻省理工学院开发了XCON系统,主要应用于计算机领域,实现高效计算机系统配置。随后,众多科技公司也开始开发自己的专家系统,如IBM的Watson知识图谱回答系统,Cyc大型知识库,以及西门子的PSS SINCAL电力系统规划分析系统。
► 1.2.2 反向传播法
反向传播法是目前用于训练多层感知机的最优算法,为近代深度学习的发展奠定了基础。反向传播法(Backpropagation)是目前用于训练多层感知机(MLP)的最常用且最有效的优化算法,它的工作原理是通过计算损失函数相对于每个权重的梯度来调整神经网络的权重与配置,从而提高模型预测的准确性。基于Bryson的“最速下降法”和Werbos初步提出的“反向传播”概念,1986年,David Rumelhart、Geoffrey Hinton和Ronald J. Williams在他们的论文中系统地介绍了反向传播算法,并将其应用于多层神经网络的训练,这一算法彻底解决了单层感知器无法求解非线性分类的问题,大大提高了当时AI模型的预测性能。目前卷积神经网络(CNN)、循环神经网络(RNN)和长短时记忆网络(LSTM),都是基于反向传播法的基础上对数据进行训练。反向传播法后续被大量用于语音识别、图像处理、计算机视觉和自然语言处理的应用中,它也为近代深度学习的发展奠定了基础。
1.3. 机器学习时期(1990s - 2000s)
► 1.3.1 监督学习
监督学习通过带标签数据进行模型训练,主要涵盖决策树、支持向量机、随机森林三种。监督学习(Supervised Learning)是一种对事先带标签数据进行模型训练,从而来优化模型的机器学习范式。目前,苹果的Siri,谷歌的语音助手助手和亚马逊的Alexa等智能语音助手,都是通过监督学习算法进行语音识别,奈飞、TikTok和亚马逊为用户提供个性推荐,也是使用了监督学习算法。
目前主要的监督学习有三种,1)决策树(Decision Tree):1986年,罗思昆(Ross Quinlan)提出ID3决策树算法,它在基于树结构分类和回归方法的基础上,通过递归划分数据集,从而根据数据的特征值进行预测,后续的决策树算法还包括C4.5和CART等;2)支持向量机(Support Vector Machine):1995年,Cortes和Vapnik提出经典的支持向量机理论,它在解决小样本、非线性识别中的性能更高。支持向量机本质上是一种基于最大间隔原则的分类方法,尽可能通过找到一个最优的超平面,使我们对与样本或数据进行分类;3)随机森林(Random Forest):随机森林由何天琴(Tin Kam Ho)于1995年首次提出,并由Leo Breiman和Adele Cutler进一步发展,它本质上是一种基于多个决策树的集成式算法,通过对多个决策树模型进行训练,从而进一步提高预测性能。监督学习通过带标签数据进行模型训练,主要涵盖决策树、支持向量机、随机森林三种。监督学习(Supervised Learning)是一种对事先带标签数据进行模型训练,从而来优化模型的机器学习范式。目前,苹果的Siri,谷歌的语音助手助手和亚马逊的Alexa等智能语音助手,都是通过监督学习算法进行语音识别,奈飞、TikTok和亚马逊为用户提供个性推荐,也是使用了监督学习算法。
► 1.3.2 非监督学习
非监督学习通过未标记的数据挖掘潜在结构及关系,涵盖K-均值聚类和主成分分析两种。非监督学习(Unsupervised Learning)与监督学习正好相反,它不依赖预先标记的训练数据。在这种学习方法中,模型试图从未标记的数据中发现潜在的结构、模式和关系。由于模型不依赖于已知答案或特定目标,非监督学习通常被用于数据探索、聚类、降维和特征提取等任务。
目前,主要的非监督学习有两种:1)K-均值聚类(K-means Clustering Algorithm):K-均值聚类由麦昆(MacQueen)在1967年提出,它通过将数据集划分为K个聚类,提高了文本挖掘和市场细分的准确性,例如,谷歌就在他的新闻服务谷歌 News中使用K0均值聚类方法,对新闻主题进行聚类;2)主成分分析(PCA):主成分分析在霍特林(Hotelling)在1933年的论文被首次提出,它是一种将目标现行降维的方法,以此可以提取样本的主要成分,它在减少数据维度的同时能够保留样本的大部分信息,多被用于高维数据降维,人脸识别和数据压缩等方面。目前人脸识别技术(Eigenfaces)就是通过主成分分析对人脸提取特征来识别用户,它被广泛用于安全监控和身份验证系统。
► 1.3.3 强化学习
强化学习算法基于环境反馈而行动,包括Q-Learning和Deep Q-Network两种。强化学习(Reinforcement Learning)是一种强调基于环境反馈而行动,从而达到预期目的的机器学习的范式,主要的强化学习算法有两种:1)Q学习(Q-learning):Q-learning是一种基于值函数的强化学习方法,由Watkins和Dayan在1992年的论文中首次被提出,通过建立动作值函数Q,让机器人能够根据当前环境做出最优的动作。Q-learning被广泛用于机器人控制和路径规划领域,如KUKA公司就使用了这一算法,实现了对机器臂的智能控制;2)Deep Q-Network(DQN):Volodymyr Mnih等人在2015年的论文中首次提出DQN方法,这是一种将深度学习和Q-learning相结合的强化学习方法,通过使用卷积神经网络(CNN)求得近似的Q函数。DeepMind旗下的AlphaGo和AlphaZero便是是用来这一算法,它们可以在游戏领域取得超越人类的表现,AlphaGo战胜围棋世界冠军李世石就是这一算法最好的证明。
1.4. 深度学习时期(2010s - 至今)
大型科技公司及研究院纷纷入局,AI热潮开启未来已至。2012年,AlexNet网络在ImageNet竞赛上取得突破性成果;2017年,中国香港Hanson Robotics技术开发公司开发的类人机器人索菲亚;2020年,马斯克提出脑机接口(Brain-Computer Interface),谷歌旗下DeepMind的AlphaFold2、中国76个光子的量子计算机原型“九章”等等,以及如今的Open AI的GPT系列,谷歌的Bard,Adobe Firefly,Midjourney,英伟达的GPU技术与DGX Cloud,都是爆发式深度学习时代下的产物,大型科技公司和研究院深度学习热潮开启,叠加ChatGPT装载GPT-4,AI的未来已至。
► 1.4.1 深度神经网络
深度神经网络能够提取预料复杂的特征和模式,卷积神经网络和循环神经网络是两种代表。深度神经网络(Deep Neural Networks)是一类具有多层结构的神经网络,能够提取预料开更为复杂的特征和模式,卷积神经网络、循环神经网络是它的两种典型。
卷积神经网络(CNN):CNN是一种专门用于处理二维数据信息的神经网络,由目前任职于Facebook的计算机科学家杨立昆(Yann LeCun)首次提出。杨立昆在收到生物处理过程和神经元连接模式的启发后创立了CNN,其本质上是卷积层通过卷积操作实现局部感受视野的特征提取。CNN不仅可以通过局部特征识别整体,还能够大幅减少网络参数,从而降低过拟合风险。CNN常被用于图像分类,目标检测和人脸识别。AlexNet在ImageNet图像分类比赛中取得突破性成果,FaceNet的人脸识别技术和YOLO的实施物体检测功能,都是基于CNN的产物。
► 1.4.2 自然语言处理
自然处理典型分支包括词嵌入和Transformer,GPT系列、谷歌 Bert等均使用了Transformer结构。自然语言处理(Natural Language Processing)旨在让计算机程序能够理解人类语言,根据语言指令生成结果,是当前最热门的的AI领域研究方向。
目前自然语言处理有两种比较典型的分支:1)词嵌入(Word Embedding):词嵌入本质上是一种将词汇映射到低维向量空间的技术,它对于理解人类语言语义和语法关系,进而处理自然语言有着重大意义。主流的词嵌入算法目前有谷歌 的Word2Vec,GolVe和FastText,它们多被用于词义消歧,语义相似度计算和文本分类;2)Transformer:Hinton等人在2006年的论文中初步阐述了Transformer这一概念,而谷歌在2017年发布的文章《Attention Is All You Need》中,Transformer正式进入大众视野。Transformer本质上是一种基于自我注意力(Self-Attention)处理序列数据的新网络结构,从而放弃了RNN或CNN。Transformer在发布之初就创造了多项纪录,后续在自然语言处理任务中,也取得了许多突破性的成果。当前讨论最热烈的GPT系列,便是基于Transformer decoder部分的生成式预训练模型,除此之外,谷歌 Bert也使用了这一架构。
► 1.4.3 GPU加速计算
GPU是AI发展引擎,英伟达GPU系列已成为深度学习大模型的发展基石。GPU技术的发展,将成为未来AI发展的引擎,其重要性主要包括:1)高性能计算:与传统的CPU相比,GPU有用更多的计算核心,因此能够处理大量的多并行计算任务,在此基础上,深度学习模型中的许多计算都可以高度并行化,从而显著提高深度学习模型的训练效率。例如,在使用英伟达 GPU的Tesla V100 GPU训练ResNet-50模型,训练速度相较以往提高了10倍;2)软件库:英伟达公司针对性地推出了深度学习相关的软件库,如CUDA,cuDNN,在使用这些有针对性的软件库后,能够进一步提高深度学习模型的计算效率,如cuDNN可以使卷积神经网络操作速度提高三倍。英伟达旗下的GPU,是目前市场上算力最高,性能最强的硬件处理器,可以说是GPU系列是当今AI深度学习大模型发展的基石。
2
主要科技公司及其AI技术成果
2.1. OpenAI
► 2.1.1 GPT系列
GPT系列采用“预训练+微调”训练策略,目前已在AI领域获广泛应用。GPT系列采用了Hinton等人在2006年提出的一种自然语言处理模型Transformer的decoder部分,并采用了一种经典的神经网络训练策略:“预训练+微调”的训练策略。在预训练阶段,基于庞大的无标签文本语料库训练一个生成式语言模型,从而获得对于语言的深层次理解;在微调阶段,使用后续数据继续训练模型,以应对不同的运用场景。ChatGPT系列功能强大,目前已成为最被大众所熟知与认可的AI聊天机器人,同时许多科技公司陆续开展了跟进项目,与ChatGPT系列进行深度融合,令GPT系列成为目前AI领域的发动机与方向盘。
GPT系列的第一个模型GPT-1于2018年6月发布,它使用了一个12-layer的Transformer解码器,并进行了一个包含4500万词条的书籍语料库进行预训练,此时只能完成一些基本的自然语言处理任务,如文本生成,分类和语言翻译功能。;2019年2月,Open AI发布了GPT系列的第二个模型GPT-2,在沿用一代网络结构设计的基础上,升级了模型参数和数据集的规模,并使用了一个24-layer的Transformer解码器,相比前代,GPT-2最大的进步在于可以生成更加连贯、流畅、逻辑性更强的文本结果,甚至可以根据对话者的要求修改自己的回答文本风格。2020年5月,GPT-3正式推出,GPT-3拥有着前所未有的1750亿个参数量级的Transformer解码器,并在一个包含5700亿词条的多源文本语料库上进行了预训练。GPT-3的能力已经可以做到以人类的流利程度撰写散文,其生产的文本质量之高,让31名Open AI研究人员在GPT-3 2020年5月28日的原始论文中强调了GPT-3的潜在风险。2020年9月22日,微软宣布获得GPT-3的“独家”使用权;其他人仍可以使用公共API获取输出,但只有微软能够访问GPT-3的底层模型。
GPT系列高速迭代,GPT 3.5、GPT 4及ChatGPT插件先后发布推动人工智能高速发展。2022年至今,GPT系列进入高速迭代期。2022年1月,Open AI宣布GPT-3.5诞生,它是基于GPT-3迭代后的微调版本,也被称为InstructGPT,GPT-3.5相比前代,加入了人类反馈强化学习(RLHF)的概念,在人类反馈强化学习下,人类向机器学习算法提供反馈,这些反馈可以用于调整模型。这种方法可以解决监督和非监督学习的局限性,即机器学习算法从仅标记或未标记的数据中学习的能力有限。2022年11月,Open AI正式发布ChatGPT,它是一款建立在GPT系列(LLM)的基础之上的AI聊天机器人,并进一步强化了RLHF的作用:从用户的问答中收集数据,从而更好地训练和微调ChatGPT本身。与前身InstructGPT相比,ChatGPT有害性和欺骗性的回应概率被大幅降低,令搭载了GPT-3.5的ChatGPT成为AI领域最成功的产品。
2023年3月14日,GPT-4横空出世,是Open AI扩大深度学习成果的一项里程碑式的杰作。GPT-4是一款大型的多模态模型(接受图像和文本输入,发出文本输出),其最大的进步在于,GPT-4相比GPT-3.5,能够表现得更可靠,回答更有创造力,并且能够产出更细致的回答,具体来说:1.GPT-4大幅提高了应对专业学术考试的表现,如通过了模拟律师考试,并且成绩排在考生前10%;2.跨语言MMLU的识别精度提升;3.视觉输入能力的加入,从此ChatGPT也可以额接受图像的输入并生成回答。Open AI以极高地速度迭代优化GPT系列。短期内接连发布的GPT-4和ChatGPT Plugins,推动这AI领域飞速发展并进一步打开潜在的应用空间。
GPT-4参数规模达到GPT-3的6倍以上,不同领域的熟练程度超越人类表现。基于微软发布的《Sparks of Artificial General Intelligence: Early experiments with GPT-4》报告,从推理、规划、解决问题、抽象思维、理解复杂思想、快速学习和经验学习能力等角度足以发现,GPT-4相较历代具有显著进步。从参数规模上来看,GPT-4有超过1万亿个参数,是GPT-3(1750亿个参数)的6倍以上,根据预测,以这个速度继续发展下去,或许在5年之内,GPT系列就能达到甚至超过人类大脑的规模(170万亿个参数)。
除此之外,微软具体测试了GPT-4在语言、数学、编程、视觉、医学、法律和心理学领域的表现水平,结果演示,GPT-4已经有超越人类水平的表现。GPT-4能够在不同领域表现出高度熟练程度,理解复杂概念,并将多个领域的技能和概念统一起来。研究结果表明,GPT-4不仅能学习不同领域和风格的通用原则和模式,还能以创造性的方式将其结合。
2023年3月23日,Open AI再次带来了ChatGPT的重量级更新——ChatGPT Plugins,它是的ChatGPT通过Open AI插件可以连接到第三方应用程序,使得ChatGPT在某一具体领域的功能被大幅增强,并且被允许执行更广泛的操作。目前解锁的官方插件有:Expedia, FiscalNote, Instacart, KAYAK, Klarna, Milo, OpenTable, Shopify, Slack, Speak, Wolfram, and Zapier。以Expedia和Wolfram为例,加载Expedia后,ChatGPT在为用户生成旅行计划后,可以直接通过Expedia进行预订机票、酒店行为;加载Wolfram后,ChatGPT近期饱受诟病的复杂数学问题解决能力将被大幅提升。
ChatGPT目前也仍存在一定的风险和问题,例如有害的建议,错误的代码提示或者是不准确的信息,而目前Open AI的做法是:在RLHF训练过程中加入额外的安全奖励信号,通过训练模型拒绝此类内容的请求来减少有害信息的输出。截止目前,除ChatGPT本身的功能,大量的科技公司也开发了新的AI技术,如Adobe Firefly,Microsoft 365 Copilot,与GPT系列深度融合,从办公,设计,绘画领域,开启了一场史无前例的生产力革命。GPT系列,无疑将成为当前时代一切领域发动机。ChatGPT目前也仍存在一定的风险和问题,例如有害的建议,错误的代码提示或者是不准确的信息,而目前Open AI的做法是:在RLHF训练过程中加入额外的安全奖励信号,通过训练模型拒绝此类内容的请求来减少有害信息的输出。截止目前,除ChatGPT本身的功能,大量的科技公司也开发了新的AI技术,如Adobe Firefly,Microsoft 365 Copilot,与GPT系列深度融合,从办公,设计,绘画领域,开启了一场史无前例的生产力革命。GPT系列,无疑将成为当前时代一切领域发动机。
► 2.1.2 Codex 系列
Codex是一款NLP模型,定位弥补GPT-3代码生成缺陷。Codex最初的设计理念,是作为弥补GPT-3在代码生成方面的不足而开发的另一款NLP模型。借助Codex,即使是非专业的程序员,也可以轻松编写代码,这大大降低了编写程序的门槛。随着后续的发展,Coedex迭代为了微软 365 Copilot,不仅能作为编程助手,更加入了微软办公软件助手功能,从而极大地提高了当前办公效率,或将在不久后引发一场世界范围的办公室革命。
2021年6月,基于早期Codex的早期版本和原型,Open AI与GitHub合作推出了GitHub Copilot,作为一款AI技术下的代码补全工具,以技术预览的形式暂时向公众开放。2021年8月,Open AI正式发布了Codex,宣布了这一款全新的高效编程助手模型,Codex专注于优化GPT系列在程序设计和代码生成上的不足,根据用户输入的文本prompt提供编程建议,从而帮助开发者更好地编写代码。
2.2. 谷歌
► 2.2.1 Bard聊天机器人
谷歌内测Bard,提供自然语言问答服务。为了与Open AI的ChatGPT抗衡,谷歌在3月21向一部分内测用户推出了一款实验性、对话式的聊天AI服务——Bard,相比于ChatGPT,Bard使用更轻量级的LaMDA模型和互联网语料库提供自然语言问答服务。
根据谷歌官方,Bard是一款与ChatGPT相当的,富有智慧的AI聊天机器人,但Bard的使用体验未达预期,这主要表现在回答的准确性上。例如,在一次演示中,Bard针对于用户对于詹姆斯·韦伯太空望远镜(JWST)的问题,提供了相距事实甚远的信息。与此同时,Bard也有一些比较明显的优点,比如Bard会主动提醒用户,自己目前还比较容易犯错误,并且Bard在和用户的问答中,会提供相比ChatGPT而言,更为温和的回答。除此之外,谷歌官方表示,Bard在语音理解能力和上下文敏感性都相比ChatGPT将有很大程度的提升,因为从原理上,LaMDA 生成器首先在给定当前多轮对话上下文的情况下生成多个候选响应,LaMDA 分类器预测每个候选响应的 SSI 和安全分数,从而给出更高质量的回答。尽管Bard和ChatGPT在一些性能上的表现各有优劣,但是二者仍然在AI聊天服务上旗鼓相当,期待Bard正式发布后的持续进化及后续表现。
► 2.2.2 Bert 预训练模型
Bert技术内核与GPT系列相似,但NLP处理任务性能上存在差距。Bert是谷歌于2018年10月发布的一款NLP预训练模型,它的技术内核与GPT系列非常相似。它同样采用了谷歌在2017年提出的Transformer架构,并使用了与训练和微调的方法,使得Bert能够在处理文本时同时考虑上下文信息,从而生成更丰富、准确的自然语言。BERT的发布改变了自然语言处理的领域,刷新了多项NLP任务的性能记录,如文本分类、命名实体识别和问答系统等。GPT系列模型确实借鉴了Bert的一些关键思路,基于Transformer架构的预训练加微调模型,但是它们在处理文本的方向性上和预训练使用的任务上具有显著差异,这导致了它们在NLP处理任务的性能上最终还是存在较大差别。
► 2.2.3 DeepMind 实验室
DeepMind AI实验室被谷歌收购,专注于医疗健康与策略游戏应用。DeepMind是一家成立于2010年,专注于AI领域的实验室,并于2014年被谷歌收购,在这十年的发展中,它的研究主要集中于医疗健康与策略游戏上,并产出了许多优秀的AI程序:1)AlphaGo: DeepMind 于 2016 年推出的 AlphaGo 是一款革命性的围棋AI程序。它运用先进的强化学习和蒙特卡洛树搜索算法,成为了首个击败人类围棋世界冠军的计算机程序。AlphaGo 在2016与围棋大师李世石的对弈胜利被认为是 AI 领域的一个里程碑式的事件。2)AlphaZero:继 AlphaGo 成功之后,DeepMind 在 2017 年推出了 AlphaZero,一种具有更广泛应用范围的强化学习算法。AlphaZero 能够在无需输入任何资料的情况下,仅通过不断进行自我对弈,就可以成为国际象棋、围棋和将棋等游戏的顶级选手。仅用几小时的学习时间,AlphaZero 便能精通这些游戏。3)AlphaStar:2019 年,DeepMind 推出了 AlphaStar,一款基于强化学习的实时战略游戏《星际争霸 II》AI 系统。AlphaStar 通过大量自我对弈,掌握了高级游戏策略,并在与人类选手的对战中表现出了卓越的战术素养。AlphaStar 是首个成功击败人类职业选手的《星际争霸 II》AI。4)AlphaFold:DeepMind 于 2020 年发布了 AlphaFold,一款旨在预测蛋白质三维结构的 AI 系统。AlphaFold 运用深度学习算法,为研究人员提供了更快速且准确的蛋白质结构预测方法。这一科技突破被认为是近年来生物学领域最具影响力的进展之一,为生物学研究和药物开发领域带来了巨大潜力。2021,DeepMind发布了该系列的第二代:AlphaFold 2,它的性能相比前代在效率和预测性上有着突出的优势,可在几分钟内破译一般蛋白质的三维结构,还可以预测一个由 2180 个氨基酸相连的大蛋白质的结构。
2.3. 脸书(Meta)
► 2.3.1 FAIR(Meta AI)
FAIR为Meta旗下AI研究部门,开发AI计算机及LLaMA大型语言模型。Facebook AI(FAIR,现更名为Meta AI)于2013年正式成立,是Meta旗下的核心的AI研究部门,它致力于运用AI技术,包括计算机视觉、自然语言处理(NLP)、语音识别、机器学习、强化学习、机器人学等多个方面,为Facebook产品提供支持。2014年,在FAIR研究结果帮助下,Facebook推出了一款基于深度学习的人脸识别系统:DeepFace,在当时的准确率就已经高达97.35%,甚至高于人类对于人脸的识别能力。2015年,FAIR发布了一款虚拟助手:M,这是一款早期的非常早期的AI聊天程序,由于M在准确性和识别性上的性能不高,在2018年该项目最终停止运营。2017-2018年,为了更好地对Facebook用户数据进行分析和审核,FAIR分别推出了DeepText自然语言处理引擎和Rosetta计算机视觉系统,使得Facebook在新闻推送,评论排序和内容审核上的能力大幅提高。2019年,FAIR正式发布了一款面向研究人员的预训练模型:PyTorch Hub,PyTorch早在2016其实已经基本开发成型,并在后续研究过程中不断完善。PyTorch 的设计灵活、易于使用,支持动态计算图,让开发人员能够更容易地构建、调试和优化神经网络模型。2020年,FAIR发布了一款开放领域聊天机器人:Blender,同样是基于预训练加微调的方法,但是在对话质量上仍然与ChatGPT有着较大差距,这主要是源于优化目标(Blender的开发目标是实现连贯有趣的对话)、模型架构(没有使用更加先进的Transformer架构)和训练数据规模上的差别。2022年,FAIR建造了一台带有新型AI研究超级集群(RSC)AI超级计算机,Meta表示,在彻底建成后,它将成为世界上计算速度最快的超级计算机。
2023年,FAIR公开了一个名为LLaMA(Large Language Model Meta AI)的大型语言模型,并对其进行了开源,该模型具有650亿个参数,。与其他大型语言模型相比,LLaMA更小、更高效、更节省资源,并且广泛可用于许多不同的实例,而不是针对特定任务对模型进行微调,但同时,它的参数级别也明显更低,在回答的准确性上还有待提升。
2.4. 苹果
► 2.4.1 虚拟助手 Siri
虚拟助手Siri是苹果代表性的AI成果。2011年,Siri随着iPhone 4s的推出被一同发布,并在后续被迅速整合到苹果旗下的其他产品中。Siri是一款整合了语音识别、NLP、对话管理、语音合成、个性化上下文通知以及集成第三方应用的强大的虚拟助手,其最大的优势在与与苹果产品的深度融合,能够执行多样的命令,并在后续加载更多的功能。根据苹果的官方2022年报告,iPhone 14pro搭载的Siri能够回答的知识是三年前的20倍,对于用户提出的各种问题,Siri都能基于互联网资讯并给出答案。但是从现在看来,ChatGPT至少在回答的准确性上对Siri造成了极大地挑战,Siri未来发展的关键,或许将朝着更加便捷、更加准确的方向继续前进。
根据《纽约时报》最新报道,苹果正在测试一款最新的生成式AI(generative AI)技术,并计划将该技术未来能用于 Siri 虚拟助手,来弥补 Siri 在原始设计上的根本性问题,但是具体的发布时间,以及能够解决哪些根本性的问题尚未透露。据9to5Mac消息,在最新的tvOS 16.4和macOS Ventura 13.3测试版中,苹果正在更新其电视产品。在苹果 TV上的Siri将获得自然语言更新,并且macOS TV应用程序的界面也会发生改变,期待苹果在ChatGPT催动AI爆发式更新下的应用革新。
► 2.4.2 Core ML、ARKit,Face ID
苹果推出Core ML、ARKit、Face ID三项AI技术,对比其他AI巨头仍存差距。除苹果的核心AI技术Siri之外,苹果在2017年也爆发式地推出了与其产品高度相关的三款AI技术: Core ML、ARKit和Face ID。Core ML 是 苹果 推出的一个高性能机器学习框架,专为 iOS 和 macOS 设备设计。它允许开发者在应用中集成预训练的机器学习模型,实现实时、低延迟的机器学习任务。
Core ML 支持多种模型架构,包括卷积神经网络(CNN)、循环神经网络(RNN)以及广义线性模型(GLM)等,适用于图像识别、自然语言处理、推荐系统等领域。ARKit 是 苹果 推出的一款增强现实(AR)开发框架,利用设备的摄像头和各种传感器捕捉现实环境的数据。ARKit 能够识别现实世界的表面和物体,将虚拟内容与现实环境相融合。开发者可以借助 ARKit 构建各类 AR 应用,涵盖游戏、导航、购物等场景。Face ID 是 苹果 开发的一种面部识别技术,基于深度学习算法进行生物识别。Face ID 使用 TrueDepth 摄像头系统获取用户的面部特征,将其转换为数学表示。通过神经网络进行模式匹配和识别,实现对设备的解锁、苹果 ID 验证以及支付操作等。Face ID 的设计旨在确保用户数据的安全性和隐私保护。对比科技巨头的AI产业布局,苹果在自然语言处理大模型上的研究与产品对比其他巨头有明显差距,苹果仍需在AI大模型领域取得突破。
2.5. 亚马逊
► 2.5.1 AWS云计算平台
AWS云计算平台广泛应用,全球市场份额遥遥领先。亚马逊网络服务(Amazon Web Services,简称AWS)是全球最广泛使用的云计算平台之一。AWS自2006年成立以来,逐步建立了一个庞大的云计算生态系统。其服务范围涵盖了计算、存储、数据库、分析、机器学习、物联网等多个领域。AWS以创新的技术和丰富的服务类型满足了各种客户需求,从创业公司到大型企业,从政府机构到非营利组织,都在使用AWS提供的服务,几乎占据了云计算服务的半壁江山。
回顾AWS的发展历程,2006年,AWS发布的Elastic Compute Cloud(EC2)和Simple Storage Service(S3)奠定了其基础服务;2009年推出的Relational Database Service(RDS)简化了数据库管理;2014年推出的无服务器计算服务Lambda开创了新的编程模式;2015年发布的亚马逊 SageMaker大大降低了机器学习应用的门槛。
AWS在扩展其服务范围的同时,它的市场地位也在不断巩固。根据市场研究公司Synergy Research Group的数据,截止2022年,AWS在全球云基础设施服务市场的份额约为31%,远高于其他竞争对手微软Azure、谷歌等,成为全球云计算领域的绝对龙头。
► 2.5.2 Alexa 智能语音助手
亚马逊 Alexa智能语音助手佼佼者,携手硬件制造商丰富智能语音功能。亚马逊 Alexa是一款由亚马逊公司开发的AI助手,自2014年亮相以来,逐渐成为智能语音助手市场的佼佼者。Alexa最初是作为亚马逊 Echo系列智能音响的内置功能而诞生的,后来逐步扩展到了其他智能设备,如智能手机、平板电脑、电视和汽车等。凭借其强大的语音识别能力和易用性,Alexa迅速赢得了用户和开发者的青睐。
亚马逊 Alexa的核心功能包括语音识别、自然语言处理和语音合成等。用户可以向Alexa发出语音指令,如查询天气、播放音乐、控制智能家居设备等,Alexa会理解指令并执行相应的操作。随着时间的推移,Alexa的技能库不断扩展,为用户提供了越来越丰富的功能。开发者可以利用Alexa Skills Kit(ASK)为Alexa开发新的技能。ASK提供了丰富的工具和资源,使开发者能够轻松地为Alexa扩展功能。截至2022年,Alexa技能库中已有超过10万个技能,涵盖了各个领域,如购物、旅游、健康、娱乐等。此外,亚马逊还致力于与硬件制造商合作,将Alexa整合到更多的设备中,形成了一个庞大的生态系统。同时, 通过亚马逊 Voice Service(AVS),第三方厂商可以将Alexa集成到自家的产品中,从而提供更丰富的智能语音功能。
2.6. 微软
► 2.6.1 新必应(New Bing)
New Bing结合AI与搜索引擎,深度融合微软生态。Bing AI ChatGPT,也被称之为New Bing,是一款革命性的AI与搜索引擎相结合的产物,它让我们寻找信息有了更加快捷高效的方式。2023年2月7日,借助ChatGPT的风口,微软发布了全新的Bing搜索引擎,最值得关注的一点在于,现在的Bing搭载了全新的Bing AI聊天机器人,名为Edge Copilot。这一功能替代了以前的“Discover”特性,现在侧边栏将提供一个AI聊天机器人。用户可以通过悬停在工具栏中的Bing图标上打开侧边栏,侧边栏在不使用时可自动隐藏。Edge Copilot能够根据网页内容和用户目标提供智能建议和见解。AI聊天机器人在发布时具有两个主要功能:聊天和撰写。这些功能可帮助用户做诸如总结冗长的网页内容、进行比较或在某些情况下创建内容等任务。
根据微软,AI Copilot还可以帮助用户更好地撰写电子邮件、更快地搜索网络并学习新技能。不过,IT管理员可以控制用户是否能够在Edge浏览器中访问侧边栏,这是一个重要的考虑因素,因为一些公司已经禁止将机密信息分享给ChatGPT等AI机器人。除AI侧边栏外,此版本的Edge还包含其他新功能。微软 365标签页将包含更大的微软 Feed,显示更多的生产力内容,并将重要邮件、最近的SharePoint站点、即将到来的活动和待办事项移到标签页右方。此外,浏览器还将提供各种安全模式改进,并支持一项新策略,该策略可以控制用户在退出浏览器应用程序时是否删除浏览历史记录。Edge浏览器的稳定版本将在后续逐步推出,支持Windows和Mac平台。
► 2.6.2 Microsoft 365 Copilot
微软 365 Copilot重磅发布,糅合办公室软件释放生产力。随着ChatGPT引发了世界范围内的AI讨论热潮,微软于2023年3月16日再次发布了一个AI重量级产品:微软 365 Copilot,这款AI助手将大型语言模型与微软办公软件中的数据相结合,为用户提供强大的生产力。微软 365 Copilot的革命性功能包括但不限于:1)释放创造力:在 Word、PowerPoint 和 Excel 等应用中,为办公者提供创意启发,简化写作、分析和设计过程;2)提高生产力:在 Outlook、Teams 和 Power Platform 等应用中,为办公者减轻繁琐工作负担,提高工作效率;3)简化复杂技能:通过自然语言对话,让刚开始使用微软的用户轻松掌握 微软 365 中的高级功能。借助微软 365 Copilot,文档编写,PPT报告生成,数据可视化都可以由更少的工作者以更高的效率完成,甚至能表现出更强的办公水平。这无疑是将引起一场全世界范围内的办公室革命。
► 2.6.3 Azure 云服务平台
微软Azure服务和产品不断丰富,广泛应用于企业和开发者。2008年的专业开发者大会(PDC)上,微软首次公开展示了名为“Windows Azure”的云服务平台。这是一个基于Windows操作系统的云计算平台,为开发者提供了各种服务,包括计算、存储和网络等。2010年,Azure正式上线并开始为客户提供服务。
2010-2014年间,Azure不断扩展其服务范围,并引入了许多新功能。例如,2012年,Azure推出了基于Linux的虚拟机,并开始支持多种编程语言和框架。此外,Azure还推出了新的服务,如Azure SQL数据库、Azure Active Directory和Azure Blob存储等。2014年以来,Azure的发展迅速,不断推出新的服务和产品。在Satya Nadella成为微软 CEO后,Azure成为公司的核心战略之一。Azure开始支持更多的开源技术,并与其他云服务提供商竞争。在这段时间里,Azure推出了一系列新功能,包括Azure Kubernetes服务(AKS)、Azure Functions、Azure Cognitive Services和Azure Machine Learning等。
2.7. 英伟达
► 2.7.1 DGX Cloud
英伟达携手云服务商打造DGX Cloud,提供云上AI运算效能。2023年3月22日, 英伟达在GTC 2023上顺势推出DGX Cloud,这是一项AI超级计算服务,为企业提供即时访问所需的基础设施和软件,以训练生成式AI和其他创新应用的先进模型。DGX Cloud为每个企业提供了专用的英伟达 DGX AI超级计算集群,搭配英伟达 AI软件,用户只需通过简单的网络浏览器就可以访问自己的AI超级计算机,无需处理购买、部署和管理本地基础设施的复杂性。
企业可按月租用DGX Cloud集群,以便在无需等待高需求的加速计算资源的情况下,快速轻松地扩展大型、多节点训练工作负载。英伟达与顶级云服务提供商合作托管DGX Cloud基础设施,首先与Oracle Cloud Infrastructure(OCI)合作,预计将在下季度扩展至微软 Azure,并很快扩展至谷歌 Cloud等。全球领先的生物技术公司Amgen、保险科技领导者CCC Intelligent Solutions(CCC)和数字业务平台提供商ServiceNow等AI先驱已经开始使用DGX Cloud。Amgen使用DGX Cloud和英伟达 BioNeMo™大型语言模型软件加速药物发现,包括英伟达 AI Enterprise软件,该软件包含英伟达 RAPIDS™数据科学加速库。
此外,企业可以使用英伟达 Base Command™平台软件管理和监控DGX Cloud上的训练工作负载,该软件在DGX Cloud和本地英伟达 DGX超级计算机之间提供无缝的用户体验。DGX Cloud包括英伟达 AI Enterprise,这是英伟达 AI平台的软件层,为数据科学流水线提供端到端的AI框架和预训练模型,简化AI的开发和部署。DGX Cloud的每个实例包括8个英伟达 H100或A100 80GB Tensor Core GPU,每节点总共有640GB的GPU内存。英伟达 Networking构建的高性能、低延迟互连网络确保工作负载可以跨集群扩展,允许多个实例充当一个大型GPU以满足先进AI训练的性能要求。DGX Cloud还整合了高性能存储,为AI超级计算提供了完整的解决方案。
► 2.7.2 图形处理器(GPU)
算力是AI发展的底座,英伟达是GPU领域掌控者。AI发展的三大支柱包括数据、算法和算力,缺一不可。在算力方面,不仅需要训练能力,还需要AI在硬件上运行和进行推理,这些都离不开强大的算力支持。在最开始,深度学习算法主要依赖CPU进行运算。但随着数据量的不断增长,CPU的运算能力逐渐暴露出瓶颈。GPU(图形处理器)是英伟达公司1999年推出的一款跨时代的产品,它在早期主要用于PC游戏市场的发展,为运行更高画面配置的游戏提供了可能性。随着英伟达不断推出全新的GPU产品,彻底改变了现在计算机的图形技术,发挥了并行计算的潜能。GPU的优势在于其拥有数千个核心,虽然单核性能可能仅为CPU的一半,但总算力可能是CPU的上百倍,因为它是专门为图形应用开发的硬件组件,适合进行大量并行浮点运算,而不涉及CPU通常遇到的复杂分支运算。
2023年3月22日,英伟达在GTC开发者大会上发布了针对ChatGPT庞大算力需求的全新GPU产品H100 GPU和解决方案英伟达 H100 NVL。这些产品主要面向大语言模型和生成式AI的云服务,通过最新的GPU产品,英伟达再次搭上了AI腾飞的翅膀,在处理器算力中继续保持了行业领先的地位。目前,英伟达在GPU领域掌控者约80%的市场份额,在AI领域始终保持着领先地位。在AI如此火热的当下,牢牢在算力硬件领域占据垄断的英伟达或许才是最大的赢家。
2.8. Adobe
► 2.8.1 Adobe Firefly
Adobe推出创意生成式AI模型,Adobe Firefly自动感知上下文和用户需求精准作画。Adobe公司在2023年3月21日推出了一款全新的AI绘画领域重磅产品:Adobe Firefly,本质上是一款创意生成式AI模型,能够创造卓越的AI绘画产品。Firefly可以通过关键词输入来创作绘画作品,这使得它其检举实用性、创新性、便捷性和高效性。与市场上的其他AI绘画软件相比,如Midjourney和Stable Diffusion,Firefly具有更强的上下文感知和个性化图像生成能力,能够为设计师提供精准的图像生成。它的功能包括但不限于:根据文字生成图像、将草图转换成矢量图和画笔纹理、修改视频内容以改变环境和气氛,以及根据提示词设计个性化海报等。这些功能使设计师能够快速将概念转化为视觉艺术作品,满足客户需求。目前,Firefly已经开放测试,未来将直接融入到Adobe旗下Photoshop、Illustrator和Premiere等熟知软件中,帮助设计师实现无限创意可能。尽管目前仍有一些AI训练和版权归属方面的争议,但Adobe正在努力解决这些问题,使Firefly成为合法且实用的创意生成式AI模型。
► 2.8.2 Adobe Sensei
Adobe探索AI机器学习平台,Adobe Sensei丰富AI驱动功能构建个性化客户体验。Adobe Sensei是Adobe与2016年推出的AI和机器学习平台,为Adobe各种产品提供了智能功能。Sensei利用大量数据和深度学习算法,为用户带来更加便捷、高效的创意体验。Adobe Photoshop在近期的更新中,引入了许多AI驱动功能:1)Select Subject功能:可以自动识别图像中的主要物体并进行快速选择;Content-Aware Fill功能则利用AI自动填充图像中被删除物体的空白区域。2)Premiere Pro:Adobe旗下一款专业的视频编辑软件,也引入了一些基于Sensei的AI功能。例如,Auto Reframe功能可以自动调整视频的画面比例,以适应不同的设备和平台;Color Match功能则可以利用AI自动匹配不同视频片段的颜色风格。3)Adobe Experience Platform:一个基于AI的客户体验管理解决方案,帮助企业构建个性化的用户体验。借助Sensei技术,Experience Platform可以实时分析用户数据,并根据用户行为和需求为他们提供定制化的内容和推荐。
2.9. 特斯拉
► 2.9.1 自动驾驶
特斯拉携手Open AI,加速探索自动驾驶。特斯拉(Tesla)方面,其当前的AI技术聚焦于自动驾驶汽车方面,自2019年开始,Tesla正式宣布了与Open AI的长期合作关系,也汽车行业带来了革命性的创新。开放式AI技术使计算机能够自主学习和操作,特斯拉利用这一技术改善其自动驾驶汽车的性能。通过与Open AI公司合作,特斯拉正在开发新的算法,并改进现有算法,以使自动驾驶汽车的性能更上一层楼。Open AI技术在特斯拉自动驾驶汽车中的应用具有诸多益处,例如,开发新算法,提供用于训练和测试自动驾驶汽车的数据,了解其他驾驶员和行人的行为以确保安全,以及及时更新汽车的人工智能技术。尽管实施开放式AI技术面临一定挑战,但特斯拉已经成功地将其应用于旗下的Autopilot系统,实现了自动驾驶汽车在道路上的更精确、高效行驶,令其在自动驾驶领域仍处于市场相对领先地位。
2.10. 腾讯
► 2.10.1 混元大模型
腾讯发布混元AI大模型,成功应用于微信搜索、广告等领域。国内互联网巨头方面,2022年4月,腾讯公布了“混元”AI大模型的研发进展,这款AI大模型整合了该模型整合了自然语言处理(NLP)、计算机视觉(CV)和多模态等基础模型。在诸如CLUE、VCR、MSR-VTT和MSVD等权威评测集合中,混元AI大模型均取得了优异成绩。为了优化模型性能,腾讯技术团队首次引入了“课程学习”训练方法,模拟人的学习习惯,实现渐进式的从易到难的学习。这不仅增强了模型的通用性和复用性,还显著降低了训练成本。
应用层面,混元AI大模型已成功应用于腾讯微信搜索、广告等业务领域,有效提升了用户体验和推荐精准度。利用腾讯太极机器学习平台的GPU算力和训练加速框架,实现了稳定且高效的模型迭代。未来,混元AI大模型将继续深化研究,深入业务实践,赋能更多场景,以更好地满足用户需求。腾讯自研的万亿MoE模型在相同资源和计算量的前提下,其性能优于稠密模型。此外,在相同规模的大模型中,MoE模型训练和推理效率更高,资源消耗更少。大模型在自然语言理解和生成任务上能持续提升性能,且边际效益并未递减。因此,腾讯选择基于MoE模型开展HunYuan-NLP 1T大模型研究,旨在充分发挥模型规模提升、压缩技术和MoE模型优势,实现更高效、可靠的AI应用。
► 2.10.2 太极机器学习平台
腾讯自研太极机器学习平台业界领先,广泛应用于多个AI核心应用场景。腾讯太极机器学习平台是腾讯自研的一款易用性高,计算资源丰富的机器学习平台。2015年,腾讯推出了太极机器学习平台的1.0版本,为用户提供了数据支持、模型训练、模型服务三大功能,一站式的解决算法工程师在 AI 应用过程中可能遇到的工程问题。自诞生以来,太极机器学习平台经历了多次升级和拓展,包括深度学习训练加速、腾讯云合作、云原生架构升级等。平台在腾讯广告业务中实践了MLOps理念,为广告平台提供高效易用的模型迭代产品服务。2020年,太极平台机器学习研发能力再度升级为统一的云原生架构,服务腾讯广告、游戏、信安、金融等多个核心AI业务场景;2022 年,为了解决“广告模型迭代流程研发效率”这样一个问题,太极广告一站式平台正式全面上线,目标将广告模型迭代业务流程通过“上太极”产品化,为广告业务提供端到端的一站式模型研发体验。目前,腾讯太极机器学习已广泛应用于不同业务领域,让用户更加聚焦业务AI问题解决和应用。
2.11. 百度
► 2.11.1 文心一言
生成式AI对话应用文心一言发布,定位AI基座赋能B端应用。国内传统搜索龙头百度方面,2023年3月16日,百度正式官宣了一款全新的生成式AI对话应用——文心一言,3月27日,文心一言云服务正式上线。文心一言是基于飞桨深度学习平台和文心知识的知识增强的大语言模型。从应用范围而言,文心一言是一种文本生成技术而非对话生成技术,因此它在生成一些富有文化内涵和哲理性的短文本,如名言警句、诗词歌赋等具有相当大的优势,但在自然语言对话方面,文心一言回答的准确性与提供有害性信息的几率较ChatGPT仍有较大差距。相比ChatGPT,文心一言上将核心定位放在了AI基座型的赋能平台,更加注重to B方向的应用,包括政务、金融、企业、电商和旅游服务等各方面,有望实现产业赋能升级
► 2.11.2 飞桨
飞桨定位内部深度学习研究项目,全面服务文心大模型研发。百度旗下飞桨(PaddlePaddle)最早起源于2013年,当时是作为百度内部的一个深度学习研究项目。经过几年的内部研发和优化,飞桨逐渐成熟并在2016年正式对外开源,旨在推动中国深度学习领域的发展。开源初期,主要面向研究人员和开发者,提供了基本的深度学习功能,如多层感知机、卷积神经网络和循环神经网络等。同时,飞桨支持分布式训练,能够充分利用计算资源,提高模型训练效率。随着社区的参与和技术的进步,飞桨逐步扩展了其功能,包括支持更多的网络结构、优化算法和预训练模型等。此外,飞桨还推出了一系列工具和组件,如模型压缩、可视化和自动超参数优化等,以满足用户在不同场景下的需求。为了进一步提升性能,飞桨开始支持高性能计算平台,如英伟达 GPU和Intel CPU等。此外,飞桨还推出了一些针对特定硬件的优化策略,如使用TensorRT进行GPU推理加速等。
2020年,飞桨发布了2.0版本,引入了动态图机制,使得模型构建和调试变得更加灵活和便捷。其次,飞桨2.0还提供了更加丰富的预训练模型库(PaddleHub),覆盖了计算机视觉、自然语言处理和语音识别等多个领域。此外,飞桨2.0还支持多种部署环境,包括服务器、移动设备和嵌入式系统等,以满足不同场景下的推理需求。2020-2023年,飞桨全面服务与百度文心大模型的研发,在文心一言问世之后,飞桨亦有望陆续释出。
2.12. 字节跳动
► 2.12.1 KubeRay 项目
字节携手微软研发AI软件KubeRay,基于分布式计算提升软件运行效率。2022年8月,微软与字节跳动在Ray Summit 2022年度峰会上宣布达成合作,将扩展AI项目KubeRay,该项目旨在帮助组织更高效地管理和运行人工智能应用程序。KubeRay是一款基于分布式计算,能够在多台计算机上运行的AI软件,这有助于提升软件的运行效率,以帮助企业更高效的AI应用程序。目前,KubeRay已经发布了Ray2.0的Beta阶段,它的主要功能有:Ray AI runtime(一个可以拓展和统一的ML工具集)、大规模shuffle支持、Ray cluster部署等。KubeRay涵盖的功能提供了高可用性和易用性,或许在未来将成为一项强大的AI工具。
► 2.12.2 推荐算法、自然语言处理技术和计算机视觉技术
多款AI技术领先全球,深度应用于其核心产品中。字节跳动的AI技术,基本凝结在了它的核心产品中,为用户带来了前所未有的使用体验,也让字节跳动成为了近年中国发展最迅猛的科技独角兽企业。1)推荐算法:字节跳动的核心竞争力之一是其出色的推荐算法。它采用深度学习和自然语言处理技术,分析用户行为、兴趣和社交关系,为用户提供个性化的内容推荐。这种推荐算法被广泛应用于抖音、今日头条等字节跳动的应用产品。2)自然语言处理(NLP)技术:字节跳动 AI Lab 在自然语言处理领域取得了世界领先水平。字节跳动的 NLP 技术涵盖了文本分类、情感分析、关键词提取、文本摘要等多个方面。这些技术被应用于今日头条、悟空问答等产品,以提高内容的智能推荐和用户体验。3)计算机视觉技术:字节跳动在计算机视觉领域也取得了突破性成果。字节跳动的计算机视觉技术涉及人脸识别、物体检测、图像分类和风格迁移等。这些技术被运用于抖音、VUE 等产品,提供更丰富的视觉体验。
2.13. 华为
► 2.13.1 “盘古”大模型
华为“盘古”大模型即将亮相,NLP大模型具备强大理解能力和生成能力。2021年4月,华为云团队立项了“盘古”大模型;近日,华为云官网透露,“盘古”系列AI大模型即将上线,其中包括NLP大模型、CV大模型和科学计算大模型,而多模态大模型的上线时间仍未透露。盘古NLP大模型同样适用了Transformer结构,并与ChatGPT不同的是,它采用了其中Encoder-Decoder架构,兼顾NLP大模型的理解能力和生成能力,保证了模型在不同系统中的灵活性。而盘古CV大模型是按次实现模型按需抽取的业界最大的CV模型,他兼顾了图像识别和生成能力,能够基于模型大小和运行速度自适应抽取不同模型规模,提高AI产品的开发效率。华为“盘古“大模型上线,有望进一步助推国内AI产业发展。
► 2.13.2 Ascend 系列芯片
华为高性能AI处理器Ascend,多个AI计算场景表现不俗。Ascend系列是华为推出的一款高性能AI处理器,被广泛用于划分为自身设备,在数据中心、边缘计算和端侧设备等场景的表现极为出色。2018年10月,华为首次发布了Ascend 310和Ascend 910两款AI芯片。其中,Ascend 310面向端侧和边缘计算场景,功耗较低;Ascend 910则针对数据中心场景,具有更强的计算能力。2019年8月:Ascend 910正式发布。Ascend 910是当时全球最高性能的AI处理器之一,性能达到了每秒256 TFLOPs(FP16)。2020年:华为发布了Ascend 710、Ascend 610和Ascend 620等多款AI芯片,分别应用于云端、数据中心、边缘计算和智能终端等场景。直至2022年,Ascend芯片仍然继续优化其性能和功耗,以满足不同的AI计算场景。截至目前,华为Ascend芯片的出货量的市场占比较小,实际应用效果仍待验证。
► 2.13.3 ModelArts 开发平台
AI开发平台ModelArts不断升级,为用户提供全流程支持。ModelArts是华为云研究中心推出的另一款面向开发者的AI开发平台,为用户提供从数据预处理、模型训练、模型部署到模型管理的全流程支持。2018年,华为云ModelArts正式发布。ModelArts提供了丰富的AI算法库、预训练模型、数据处理工具等资源,帮助用户快速构建和部署AI应用。2019-2021年,ModelArts发布多项新功能,包括AutoML(自动化机器学习)、分布式训练、弹性训练等,进一步降低了用户构建AI应用的门槛。加入了更多AI领域的算法和预训练模型,如自然语言处理、计算机视觉等。此外,ModelArts还提供了端云协同能力,方便用户在不同场景下部署和管理AI模型。支持更多的AI框架(如TensorFlow、PyTorch等),提供更强大的算力支持,包括Ascend系列AI芯片、GPU等。2022年,ModelArts再次进行了大幅度的更新优化,不仅支持VS Code一键连接Notebook,和自动以镜像创业算法和训练作业,还上线了Workflow工作流功能。目前为止,ModelArts仍在进行不断地优化,比如标签管理服务TMS和新版转专属资源池,已成为华为旗下最富有生命力的一款AI产品。
2.14. 阿里巴巴
► 2.14.1 达摩院
达摩院聚焦前沿科技领域研发,AI成果不断助推产业变革。阿里达摩院(Alibaba DAMO Academy)是阿里巴巴集团于 2017 年成立的研究院,旨在开展前沿科技研究和创新。2018 年,达摩院发布了 “Ali-NLP” 自然语言处理技术,以深度学习为基础,大幅提升了中文自然语言理解能力。这项技术应用于阿里巴巴的搜索引擎、推荐系统、语音助手等业务,优化了用户体验。同年时间,阿里达摩院推出了阿里云MaxCompute,一种大数据计算服务,帮助企业高效、安全地处理大规模数据,提高数据处理能力。2019 年,阿里达摩院成功研发了自家的AI芯片 "含光800",这款芯片主要应用于数据中心的AI计算,提供高性能、低能耗的计算能力,助力阿里巴巴在云计算领域的布局。 2020 年,达摩院发布了首个大规模预训练模型“盘古大师”,为阿里在自然语言处理、计算机视觉等多模态任务提供强大支持。2021 年,阿里达摩院推出了AI开源社区“魔搭”(ModelScope),其目标是构建下一代模型即服务共享平台,从而降低 AI 应用的门槛。到2023年3月,阿里在“魔搭”上线了“文本到视频生成扩散模型”,实现了文本信息转换为视频内容的功能。阿里达摩院已经推出了多个版本的多模态和深度学习大模型,极大地推动了中文大模型的发展。
► 2.14.2 通义大模型
通义大模型国内首创AI统一底座,参数规模全球第一。在发展过程中,阿里达摩院专注于多模态预训练,并探索了通用统一大模型。2022年,阿里达摩院发布了多个版本的多模态和语言大模型,实现了超大模型、低碳训练技术、平台化服务和实际应用等方面的突破。2022年9月2日,阿里达摩院发布了业界首个通用统一大模型M6-OFA。作为最新通义系列的一部分,M6-OFA模型拥有10万亿参数的模型,成为全球参数规模最大的AI模型。
M6-OFA模型在国内首创了AI统一底座,将模态表示、任务表示和模型结构统一起来。在无需引入任何新增结构的前提下,可同时处理逾30种跨模态任务,达到国际领先水平;此外,M6-OFA模型采用模块化设计,借鉴了人脑的模块化结构,从而提升了效率和性能。这些模型在电商、医疗、娱乐、设计和金融等领域均有实际应用。由此可见,阿里达摩院的通用统一大模型M6-OFA为AI从感知智能向知识驱动的认知智能迈进提供了先进的基础设施,实现了模态表示、任务表示和模型结构的统一,展现了广泛的应用前景。
► 2.14.3 阿里云ET大脑,菜鸟网络,天猫精灵
阿里旗下AI产品众多,阿里云ET大脑、菜鸟网络、天猫精灵应用已久。除了通义大模型以外,阿里巴巴旗下AI产品众多,阿里云ET大脑,菜鸟网络,天猫精灵是阿里旗下三个最具代表性的AI产品。1)阿里云ET大脑:阿里于2016年推出的一个AI平台,为合作企业和开发者提供强大的AI算法和计算能力。它整合了大数据、机器学习和深度学习等多种技术,支持自然语言处理、计算机视觉、语音识别和推荐系统等多种应用。经过多年的发展,ET大脑在城市管理、工业生产、医疗健康等多个领域取得了显著成果,目前牢牢占据了世界云计算市场第四的位置。2)菜鸟网络:阿里巴巴集团旗下于2013年正式成立的AI物流平台,利用大数据和AI技术优化物流过程。它采用了智能路径规划、实时数据分析、预测性调度等技术,从而极大地提高物流效率和准确性。3)天猫精灵:2017年推出,并迅速成为了中国市场上颇受欢迎的智能语音助手,天猫精灵与阿里巴巴旗下的电商平台、支付系统等深度集成,提供了便捷的购物和支付体验。与此同时,天猫精灵自然语言处理技术的持续优化使得天猫精灵在中文语境下的语音识别和理解能力更加强大。
3
AI Critical Mass 已至
3.1. AI发展达到 Critical Mass
AI产业发展进入临界点,应用变革层出不穷。AI产业发展至今,其发展进程已经达到了大量行业应用革新的临界点,在绘画、设计、办公、广告和硬件设施等代表性领域,产生广泛的应用和显著的影响。在这种情况下,AI发展已经具备了足够的规模和实力,能够在这股势头下引发更多的创新和变革。因此,无论是科技大厂还是新兴的科创公司,其对于AI发展的判断以及未来的行业布局,都是当前值得关注的焦点。
3.2. AI已成为中美科技巨头间的军备竞赛
AI大模型存在财力要求、硬件设施、人才设备等高门槛,已成为中美科技巨头军备竞赛焦点。针对于AI大模型方向,目前已经进入了中美科技巨头的军备竞赛环节,小型人工智能厂商或初创企业,展望未来,均难以在大模型领域立足,主要面临以下多个门槛:
1)财力要求:AI的研发投入无疑是巨大的,人才引进、硬件租用、研发投入都是巨大的开销,且AI并不是一个短期见效从而获得收益的项目,它需要长时间、不间断地投入。目前,各大科技巨头,如谷歌,微软,亚马逊,腾讯,华为,阿里巴巴等等,都在AI研发投入了巨额资金。据IDC数据,2022年全球AI市场支出以及超过700亿美元,预计到2024年将超过1100亿美元。这样庞大的资金投入,不是小型AI科技厂商能够通过融资就能达到的。
2)硬件设施:AI大模型的预训练任务对于语料库数据的要求同样是巨大的,这也对科技公司的算力硬件提出了更高的要求。目前英伟达 H100 GPU已经是供不应求,仅有少数的科技巨头能够与英伟达签订合同获得硬件设施上的支持,或是自主研发定制AI芯片,例如谷歌推出的Tensor Processing Unit(TPU)。而强大的硬件要求导致小型科技公司只能在针对性的AI领域进行小规模深度学习模型的训练和推理。
3)人才储备:当前大量的AI领域人才都纷纷受聘与大型科技公司,尤其是中国和美国,如谷歌,微软,Meta,华为,百度,阿里巴巴,腾讯等企业。以谷歌为例,2012年底,杰弗里·辛顿(Geoffrey Hinton)与其两位学生成立了公司DNN-Research,以4400万美元高价被谷歌并购,最终被称为人工智能教父的杰弗里·辛顿成为了谷歌副总裁、Engineering Fellow。 人工智能团队的同样是巨头之间竞争的一大领域,高额的人力投入,是小型科技公司难以竞争和负担的。
4)舆论关注度:2014年开始,中美的科技巨头已经创立了旗下AI研究中心,进行了长期的产品研发和技术创新。而2022年ChatGPT的成功,再次拔高了巨头们对于AI产业的关注度,并在第一时间着手推出自己的AI产品,我们可以看到,截至目前为止,市面上大部分的AI产品都出自科技巨头旗下,且有许多公司已经对于自己的AI产品发布了预告,进一步抢占市场的关注度,如华为的盘古AI大模型,360 AI大模型,谷歌 Bard和百度文心大模型,对于小公司而言,很难在舆论宣传和媒体推广上,与大公司抗衡在挤占市场关注度。
5)商业模式冲击:AI领域的跨越式进步,对于传统科技巨头的商业模式是有毁灭性打击的,它从根本上否定了近年进化产品的方向,以UI(用户界面)为基础的人机交互模式在未来或许会彻底消失,取而代之的是,AI将成为最底层的操作系统,并可能成为App的入口。以ChatGPT为例,以往的App要求用户来完成一系列繁琐的操作,但是在ChatGPT Plugins加载第三方应用的情况下,我们仅仅需要做的就是与AI交流,让AI来代替我们发送指令,完成操作。这样商业模式的革命性改变,目前已经在广告、搜索引擎和购物等多个领域,让巨头们产生了极大的危机感,迫使这些科技巨头进一步加大AI领域的研发投入,从而及时抢占市场,来规划未来的商业模式。以谷歌为例,AI聊天机器人的出现,让谷歌赖以生存的广告商业模式的根基产生了巨大的动摇,谷歌的广告收入占到了公司总收入的56%,但是在当前,用户通过AI进行知识搜索的情况下,并不会收到搜索引擎中的广告推送,广告的曝光量大幅下降,从而导致厂商减少了广告投入,谷歌的收入也将大幅减少。因此,以谷歌为首的科技巨头将会更加大力投入AI领域研发,务求降低对现有商业模式的冲击同时寻找AI浪潮下的新增长点。
4
投资建议
AI产业发展进入临界点,中美科技竞赛下算力需求确定性高。通过系统回顾AI技术发展历程、主要科技巨头AI布局及其主要成果,我们认为AI产业发展的临界点已经来临,应用变革层出不穷,在财力要求、硬件设施、人才储备等高门槛下,现阶段AI将成为中美科技巨头的军备竞赛,算力层面的需求确定性最高,推荐标的联想集团(0992.HK),受益标的英伟达(NVDA.O)、微软(MSFT.O)。
5
风险提示
AI技术迭代进度不及预期;应用落地进度不及预期;国内AI供应链波动风险等。
往期报告
【国君海外科技】联想集团(0992.HK):GPT算力时代:AI服务器高速增长,整合跃迁的算力巨擘
【国君海外科技】腾讯控股(0700.HK)22Q4业绩点评:新科技周期,新高速增长
【国君海外科技】行业跟踪点评:版号密集发放,供给回归可期
【国君海外科技】腾讯控股(0700.HK):国内与海外产品周期共振,游戏景气向上经营全面复苏
【国君海外科技】拼多多(PDD.O):业绩延续高增长,Temu开启全球征程
团队介绍
【国泰君安海外科技团队】
秦和平
执业证书编号:S0880123010042
海外科技领域负责人、首席研究员
梁昭晋
执业证书编号:S0880523010002
海外科技分析师
法律声明
本公众订阅号(微信号: 秦和平海外科技研究)为国泰君安证券研究所海外科技研究团队依法设立并运营的微信公众订阅号。本团队分析师梁昭晋具备证券投资咨询(分析师)执业资格,资格证书编号为S0880523010002。
本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。
本订阅号所载内容仅面向国泰君安证券研究服务签约客户。因本资料暂时无法设置访问限制,根据《证券期货投资者适当性管理办法》的要求,若您并非国泰君安证券研究服务签约客户,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。
市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。
本订阅号所载内容版权仅为国泰君安证券所有。任何机构和个人未经书面许可不得以任何形式翻版、复制、转载、刊登、发表、篡改或者引用,如因侵权行为给国泰君安证券研究所造成任何直接或间接的损失,国泰君安证券研究所保留追究一切法律责任的权利。