查看原文
其他

AI“军火商”英伟达 盆满钵满

21记者 21Tech 2024-04-11
推动AI时代向前再迈一步。

来源:21tech(News-21)
作者:李强
编辑:张伟贤  卢陶然
图源:图虫


北京时间3月21日23点,2023春季GTC大会正式上线,英伟达CEO黄仁勋围绕AI、量子计算、芯片等前沿科技,发布了一系列前沿技术和产品。

在OpenAI的ChatGPT与谷歌的Bard争得不可开交的情况下,作为AI淘金潮中的卖水工,英伟达可谓是赚得盆满钵满。伟达数据中心业务在2022年第四季度为公司带来了60.5亿美元的收入中的36.2亿美元,这也意味着,提供A100等芯片的数据中心业务已经在上个季度为英伟达贡献了近六成的收入,与此同时,英伟达股价今年以来更是狂涨79%。

不过,黄仁勋表示,并没有预见今天的一切,也不把英伟达的成功视作是幸运。“我预见的是,加速计算机的发展,而不是AI的发展,我们做了很多伟大的决定,包括搭建平台,并且让每个人都能够连接到这个平台,和全球的研究型大学建立联系等。我们只是相信,在某一天,总有一些新的东西会出现。”

黄仁勋在GTC大会上表示,生成式AI令人印象深刻的能力让每个公司产生了一种紧迫感,需要重新构想这些公司的产品和商业模式。


英伟达表示,对于AI行业重中之重的A100芯片和下一代产品H100芯片,英伟达对代工厂的订单持续增加,同时,英伟达将全力投入AI技术,推出新服务和硬件,旨在为一系列AI产品提供动力。


“我们正处于人工智能的iPhone时刻。”黄仁勋强调表示。



AI量身定制算力

ChatGPT卷起AIGC热潮,也迅速拉高了算力需求,围绕AI的发布会自然也不会缺少GPU的提速。

在GTC大会上,英伟达发布了全新的GPU推理平台,包括4种不同配置,针对不同工作负载进行优化,分别对应了AI视频加速、图像生成加速、大语言模型(LLM)加速和推荐系统和LLM数据库,包括L4 Tensor Core GPU、L40 GPU、H100 NVL GPU和Grace Hopper超级芯片。


其中,L4是针对AI生成视频的通用GPU,用于加速AI视频,可以提供比CPU高120倍的性能,能效提升约99%。可以优化视频解码与转码、视频内容审核、视频通话等性能,一台8-GPU L4服务器可以取代100多台用于处理AI视频的双插槽CPU服务器。目前,英伟达GPU在AI视频生产技术供应商Runway的产品中已经提供了相应的技术支持。

L40则是用于图像生成,针对2D、3D图像生成进行优化,并可以结合Omniverse,直接生成3D内容,甚至是元宇宙内容。该平台推理性能是英伟达的云推理GPU T4的10倍。


H100 NVL是专门为大语言模型设计的GPU,采用了Transformer加速解决方案,可用于处理ChatGPT。此外,H100 NVL配备94GB HBM3显存的PCIe H100 GPU,采用双GPU NVLink,支持商用PCIe服务器轻松扩展。

“当前唯一可以实际处理ChatGPT的GPU是英伟达HGX A100。与前者相比,现在一台搭载四对H100和双NVLINK的标准服务器速度能快10倍,可以将大语言模型的处理成本降低一个数量级。”黄仁勋说道。

“NVIDIA H100依靠在工艺、加速引擎、机密计算、互联技术、指令集等方面的创新,为人工智能基础设施提供了源源不断的动力。普通公司可以通过LLM以及GPT-4定制自己的生成式AI语言模型。NVIDIA Grace CPU和Hopper GPU提高了通信带宽,提供了更快的CPU-CPU和内存读取和写入,使得大模型的训练更加迅速。同时,Grace CPU引入了额外的LPDDR5X内存为Hopper GPU提供额外存储,极大地增加了可训练的语言模型的大小,并为训练生成式AI提供更加强大的后台支持。由于单个GPU性能的提升和能效比的提升,相比于上一代数据中心,新一代架构可以降低2~3倍的训练成本。”有学术界人士对21世纪经济报道记者表示。

Grace Hopper超级芯片是为推荐系统和大型语言模型AI数据库设计的,可用于图推荐模型、向量数据库和图神经网络。它可以通过900GB/s的高速一致性芯片到芯片接口连接英伟达Grace CPU和Hopper GPU。

“NVIDIA Grace CPU说明了整合异构计算系统的重要性。单纯的加速器优化和设计已经不能够满足现在对于计算系统的算力和能效比的要求,需要各个部分的协同优化和设计。另外Grace CPU通过提高通信带宽和在CPU和GPU之间建立一致(coherent)的内存模型来解决运算中的瓶颈,这也和学界(近存计算,内存计算)与业界(CXL,CCI等等系统互联协议)一直在关注的方向是一致的。”上述学术界人士表示。



云上训练模型

本次GTC大会,另一个重头戏是云。

英伟达发布DGX Cloud云服务,提供专用的NVIDIA DGX AI超级计算集群,搭配NVIDIA AI软件,使每个企业都可以使用简单的网络浏览器访问AI超算,消除了获取、部署和管理本地基础设施的复杂性。

英伟达表示,DGX Cloud是一项月租服务,该服务为企业客户提供了训练他们自己的生成式AI模型和其他应用程序所需的超级计算能力,允许客户通过云快速设置大型多节点训练工作负载,从而减少大型模型的训练和开发时间。


该服务目前已经与Microsoft Azure、Google GCP和Oracle OCI开展合作。每个DGX Cloud实例都具有八个H100或A100 80GB Tensor Core GPU,每个节点共有640GB GPU内存。

使用NVIDIA Networking构建的高性能、低延迟结构,可以确保工作负载跨互连系统集群扩展,允许多个实例充当一个巨大的GPU,以满足高级AI训练的性能要求。

目前,英伟达开放的首个NVIDIA DGX Cloud,是与Oracle Cloud Infrastructure(OCI)合作的云服务,用户可以租用DGX Cloud的月租为36999美元起。

此外,英伟达还公布了其新的AI Foundations服务,该服务将允许公司用户根据他们提供的数据构建和运行自己的大型语言和生成式AI模型。该服务包括语言模型NEMO、视觉模型PICASSO和生物学模型BIONEMO。

其中,NEMO是用于自然语言文本的生成式模型,可以提供80亿、430亿、5300亿参数的模型,且会定期更新额外的训练数据,可以帮助企业为客服、企业搜索、聊天机器人、市场分析等场景定制生产生成式AI模型。

PICASSO则用于制作视觉模型,可以用于训练包括图像、视频和3D应用的生成式AI模型。PICASSO可以通过高文本提示和元数据用DGX Cloud上的模型创造AI模型。目前英伟达已经与Shutterstock合作,开发了Edify-3D生成式AI模型。

本次GTC英伟达还着重关注生物制药领域,BIONEMO也是专门为用户提供创建、微调、提供自定义模型的平台,包括AlphaFold、ESMFold、OpenFold等蛋白质预测模型。生物圈的热门方向是利用生成式AI发现疾病靶因、设计新分子或蛋白类药物等。

“大模型产业链下游是需求各异的海量客户,有钱的、在意数据隐私的大客户会直接找fabless定制微调后的大模型,类似现在微软找AMD定制数据中心CPU;钱少的、愿意‘拿隐私换方便’的小客户,则将通过云端推理的方式直接使用大模型工具。”沐曦光启智能研究院科学家李兆石分析认为。

英伟达表示,到目前为止,包括Adobe、Getty Images、晨星、Quantiphi和Shutterstock等知名企业正在使用这一新平台构建AI模型。例如,Adobe正在使用该软件构建图像和视频的生成式AI模型,最终将嵌入到Photoshop、Premiere Pro和After Effects等软件中。

对于国内GPU厂商未来应如何应对,上述学术界人士对记者表示,“从H100上,包括专用的transformer引擎以及对FP8格式的支持,可以看到计算硬件在向应用定制的方向前进。NVIDIA的一个重要护城河就是他的从应用,软件,程序库,到紧密结合的硬件的整个生态系统。国产GPU厂商除了硬件本身,更应该关注整个软件生态的建设,从下游的应用出发,从一个领域着手,根据需求去定制计算硬件。”



英伟达闯入芯片制造

当地时间3月21日举办的GTC大会上,英伟达宣布与台积电、ASML、新思科技(Synopsys)三大半导体巨头合作,将英伟达加速运算技术用于芯片光刻中的计算光刻中,并推出用于计算光刻的软件库“cuLitho”。


“半导体产业是世界上几乎所有其他产业的基础。”在GTC大会的主题演讲上,黄仁勋称,随着产业向更高芯片制程进军,算力需求也大幅增加,芯片光刻工艺愈加复杂。从原理上来看,光刻机就是用光把图案投射到硅片上,一方面需要让投射图案尽可能地小,可以在一平方毫米中塞入成千上万,甚至数亿个晶体管;另一个则要让生产效率最高,出产尽量多的晶圆。

为了让光刻的图案足够准确,“计算光刻”这道工序便不可或缺。计算光刻应用逆物理算法来预测掩膜板上的图案,通过模拟光通过光学元件并与光刻胶相互作用时的行为,以便在晶圆上生成最终图案。

“计算光刻是一项资源密集型工程,通常需要大型数据中心来处理所涉及的计算和模拟运行。即使是最强大的计算机,这个过程也可能需要很多很多小时。从5纳米、3纳米,再到2纳米,随着芯片制程不断向着更先进的节点挺进,芯片上装载的晶体管数量提升,计算工作量增加,进一步增加了光刻的挑战。”新思科技(SNPS.O)解释道。

黄仁勋也在GTC大会上表示,计算光刻过程是芯片设计和制造领域中最大的计算负载,“每年消耗数百亿CPU小时,大型数据中心24x7全天候运行,去创建用于光刻系统的掩膜板,这些数据中心还是芯片制造商每年投资近2000亿美元的资本支出的一部分。”

他进一步举例称,光制造英伟达H100 GPU芯片就需要89块掩膜板,如果在CPU上运行时,处理单个掩膜板当前需要两周时间,但在GPU上运行cuLitho的情况下,仅需要8小时即可处理完一个掩膜板。

“加速计算光刻周转时间将会助力半导体企业高效制造芯片,我们与NVIDIA的最新合作——在NVIDIA cuLitho软件库上运行Synopsys Proteus光学接近校正(OPC)软件,正是我们推动将GPU芯片制造周期从数周缩短至数天的改进方法之一。”新思科技表示。

黄仁勋还表示,通过GPU加速计算光刻过程,也可进一步降低能耗。台积电可以在500个DGX H100系统上使用cuLitho加速,将功率从35兆瓦降至5兆瓦,替代原本使用计算光刻的4万台CPU服务器,进一步降低功耗。

据英伟达介绍,通过将cuLitho软件库集成至台积电的制造流程中,并结合新思的EDA软件,ASML也计划将GPU支持整合到所有的计算光刻软件产品中。在几大芯片供应链巨头共同合作下,可推动半导体行业向更先进芯片制程进军,加速芯片上市时间,提高晶圆厂运行效率,以推动制造过程的大型数据中心的能源效率来改善芯片生产。

值得注意的是,黄仁勋还特别提到了cuLitho在台积电2纳米工艺中的使用。借助cuLitho,台积电可以缩短原型周期时间,提高晶圆产量,减少芯片制造过程中的能耗,并为2纳米及以上的生产做好准备。据悉台积电将于6月开始对cuLitho进行生产资格认证,并会在2024年对2纳米制程开始风险性试产,2025年开始量产。

英伟达先进技术副总裁Vivek Singh表示,一些较老架构的GPU芯片也可以使用cuLitho软件库加速计算光刻进程,因此芯片生产商没有必要购买更新更贵的GPU。除了2纳米外,cuLitho软件库还可用于更旧的芯片制造工艺。cuLitho潜在的好处是可能降低光刻中掩膜板的使用量,进一步降低芯片生产成本。

(本报记者倪雨晴亦有贡献)



往期推荐

半百微软,扎进AI变局

华为战略突围基础软件

华为喊话,吓坏用友金蝶



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存