AWS的AI战略与最新进展(2篇)
AI的八个核心阶段:训练、知识产权保护与保密性、AI应用、调优、规模扩展、成本控制、ROI优化、简化 导入与拓展:赋能数以万计的Bedrock客户 行业定制化:深耕金融服务、生命科学、保险、医疗保健等行业,打造解决复杂问题的综合性平台。 AWS作为AI实验、开发与部署的平台 依托芯片技术、LLM多样性、生态合作伙伴及方案灵活性,实现成本效益最大化 安全与隐私:严密保护数据、模型权重、训练数据等关键资产 Amazon Q:作为“向上堆栈”简化AI流程的创新
OpenAI和微软已夺走了AWS十多年积累的市场领导地位;AWS能否重振旗鼓,重新夺回这一优势呢? 密切留意Anthropic等新生力量的影响,深入理解模型选择的关键性,并评估AWS自有基础模型、定制芯片技术,以及生态系统合作伙伴的导入情况。 未来的模型会走向标准化和商品化吗?还是通过灵活多样的可选方案,创造出独特的竞争优势?竞争对手在多样性方面能否与AWS一较高下? 在AI应用中,信任无疑是决策的重要因素,但业务的便利性是否会成为最终胜出的关键?私有AI部署与AI云服务之间,企业又将如何权衡与选择? AWS能否通过GenAI作为强大的协调器,以及Amazon Q作为简化的抽象层,进一步推动AI技术的广泛导入与应用,提高市场的接受度呢?
AWS的AI战略与最新进展
Source:David Vellante; AWS' AI blueprint emphasizes optionality, trust and scalable industry solutions; April 06, 2024
本周,在纽约,我们深入探讨了AWS的AI战略及最新进展。与包括AI副总裁Matt Wood在内的多位公司高层进行交流后,我们对AWS的AI方法有了比re:Invent 2023大会上所展示的更深刻的认识。此外,我们还特意安排了一次与某大型金融机构高级技术领导的会面,旨在评估客户对AWS观点的认同度。尽管这两方的交流都给我们带来了积极的反馈,但根据调查数据,OpenAI和微软在AI领域的动力依旧强劲,这一优势是从历史上首个引领云创新的AWS手中赢得的。为了重新夺回领先地位,AWS正采取一系列综合策略,在基础设施、AI工具和堆栈应用这三个层面共同发力。
深入探索AWS的生成式AI堆栈
由于未能获得Matt Wood分享的PPT,我们将依据Adam Selipsky在去年的re:Invent大会上展示的幻灯片及其注释版本来进行说明。
上图展示了AWS的三层GenAI堆栈结构,包括用于训练基础模型和进行成本效益高的推理的核心基础设施。在此基础之上,构建的是Bedrock托管服务,它提供了利用LLM的工具。而在堆栈的顶端则是Q,这是Amazon为简化GenAI的导入而做出的努力,本质上可视为Amazon版本的Copilot。
核心基础设施的关键点
接下来,我们将探讨从堆栈的每一层中提炼出的关键要点。首先,底层涉及三个主要方面:1)AWS在ML和AI领域的长期积累,特别是SageMaker方面的成就;2)其在自定义芯片领域的专业知识;3)以及大约400个实例的计算选择性。
我们将逐一介绍这些内容。
Amazon强调,它使用SageMaker进行AI应用的历史相当悠久。尽管SageMaker因其广泛应用和强大功能而备受赞誉,但其复杂性也不容忽视。要充分利用SageMaker,用户需要深入理解复杂的ML工作流程、选择适合的计算实例、将其集成到管道或IT流程中,以及其它一系列复杂的操作。尽管如此,大部分AI用例仍能通过SageMaker得到有效解决。在我们看来,AWS有机会通过引入GenAI作为编排层来简化SageMaker的使用过程,从而进一步扩大其传统ML工具的应用范围。
在芯片技术方面,AWS拥有与Graviton、Trainium和Inferentia等自定义芯片开发相关的深厚历史。AWS提供了众多EC2选择,虽然可能会让一些用户感到困惑,但这些选择允许客户根据工作负载的最佳匹配进行实例优化。此外,AWS也提供了来自NVIDIA的GPU,并声称自己是首家推出H100的公司,也即将成为首家推出NVIDIA的超级芯片Blackwell的公司。
AWS在核心基础设施层的战略得到了如Nitro和弹性网络适配器(Elastic Fabric Adapter,EFA)等关键构建块的支持,这些技术为支持安全设计的各种XPU选项提供了有力保障。
Bedrock与基础模型的选择性
当我们上升到第二个堆栈层,这里无疑成为了众多目光的焦点,因为它是与OpenAI展开竞争的关键层级。以我们的观察来看,大多数行业都尚未准备好迎接ChatGPT时代的到来。AWS,同样在我们看来,也尚未做好全面准备。尽管它拥有Titan这一内部基础模型,但选择提供多个模型似乎是一个更明智的策略。有人可能会怀疑这是否是一种“如果不能修复,就提供多样选择”的做法,但回顾AWS的历史,我们不难发现,它向来擅长在合作与竞争中寻求平衡。例如,Snowflake与Redshift之间的竞争与合作,AWS不仅为客户提供多样化的服务选择,还从两者的广泛应用中获得了利益。
Amazon的Bedrock是一个托管服务平台,它确保客户能够访问多个基础模型和工具,从而建立起对AI的信任。在Adam之前展示的图表基础上,我们叠加了几个AWS提供的基础模型,包括AI21labs的Jurassic、Amazon自家的Titan模型,以及Anthropic的Claude。考虑到AWS对Anthropic的40亿美元投资,这组模型的重要性不言而喻。此外,我们还加入了Cohere、Meta的Llama、Mistral AI的多种选择,包括其专家混合(MoE)模型和其旗舰产品Mistral Large,最后是stability.ai的Stable Diffusion模型。我们预计未来会有更多模型加入这一阵营,包括可能的DBRX。同时,Amazon也在积极研发自己的FM模型。值得一提的是,去年11月有报道称,Amazon正在研发一个名为Olympus的2万亿参数模型,该项目由Amazon Alexa的前领导人负责,并直接向Andy Jassy汇报。
简化GenAI的应用:应用程序的力量
最后,我们来看顶层——Q。这是一个设计简洁、易于使用的应用层,为各种特定用例提供了开箱即用的GenAI功能。例如,今天的Q已经能够应用于供应链或数据处理等领域,并提供了与Slack、ServiceNow等流行平台的连接器。简而言之,Q就像是一组为那些不想从头开始构建AI系统的客户量身打造的GenAI助手。尽管AWS在其营销中避免使用“copilots”这一术语(因为这是微软所推崇的概念),但在我们看来,Q正是这一概念的最佳体现。
GenAI的广泛应用:微软与OpenAI主导
下图展示了来自最新技术支出意向调查的数据,该调查涵盖了超过1800个账户。图中,垂直轴表示平台上的支出势头或净得分,而水平轴则通过测量这1800多个账户中的重叠度来反映数据集的存在情况。红线标注的40%位置表示支出速度非常高。右下角插入的表格展示了数据点的绘制方式——调查中的净得分由N决定。
要点解析:
在账户渗透方面,OpenAI和微软的表现超出了预期。OpenAI的净得分接近80%,位居榜首,而微软在611个回答中占据领先位置。 AWS在调查中主要以SageMaker为代表。在AI领域,AWS与Google之间的差距相比整个云领域要小得多。虽然当我们展示云账户数据时,AWS仍然遥遥领先于Google,但Google似乎正在逐渐缩小这一差距。目前,Bedrock的数据在数据集中尚不可用。然而,AWS和Google在数据集中都展现出了强大的净得分和稳固的存在,但两者之间的差距正在缩小。 值得注意的是Anthropic和Databricks在ML/AI调查中所做的努力。特别是Anthropic的净得分与OpenAI不相上下,尽管其样本量N要小得多。作为AWS最重要的LLM合作伙伴之一,Anthropic的表现引人瞩目。同时,Databricks也在数据图中呈现出向右上方移动的趋势。我们了解到ETR将在这个领域添加Snowflake的数据。回顾一下,Snowflake通过容器化NVIDIA的AI堆栈作为其AI战略的核心部分,因此,未来几天内其在该领域的表现将备受关注。 在1月份的调查中,Meta的Llama在垂直轴上的位置领先于Anthropic和Databricks,有趣的是它们之间的位置有所交换。我们将继续关注这一趋势是否持续。
AI工具的多样性助力实现最佳战略匹配
这张图表对净得分方法进行了深入的解析。请注意,净得分是衡量平台上支出速度的关键指标。它反映了调查中应用平台的客户比例,具体分为五类:1)作为新平台被采纳;2)支出增加了6%或更多;3)支出保持在正负5%以内;4)支出减少了6%或更多;以及5)客户流失。净得分通过从1+2中减去4+5来计算,它展示了在平台上支出更多的客户的净百分比。
接下来,我们展示了调查中每个ML/AI工具的数据。
净得分达到或超过40%被认为是极高的得分。 微软和OpenAI的显著得分在我们之前的图表所显示的大量样本数量(N)的背景下显得尤为突出。 Anthropic的强劲势头同样令人印象深刻,尽管其在调查中的存在(N)仅为OpenAI的六分之一。 虽然我们目前没有Amazon Bedrock的数据,但很可能Anthropic的大部分应用都是通过AWS实现的。 前几名工具几乎没有出现客户流失的情况,只有OpenAI和Google Vertex存在微小的例外。 在支出减少方面也是如此,除了Llama,它显示了一小部分客户的支出有所减少。 前9名工具均表明,支出增加的客户数量超过了支出保持不变和支出减少的客户总和——这表明市场虽不成熟,但具有巨大的增长潜力。
目前,行业内关于LLM商品化的讨论十分热烈。我们仍在整理我们的观点并收集数据,但与客户的个别交流表明,他们看到了选择性和多样性的价值。我们的观点是,只要创新和“跳跃式发展”持续进行,基础模型可能会整合,但商品化的可能性较低。
GenAI应用速度迅猛但风险犹存
现在,让我们来探讨一些其它调查数据,并深入剖析将GenAI投入生产所面临的一些挑战。在针对近1400名IT决策者的三月调查中,近70%的受访者表示,他们的公司已经将某种形式的GenAI投入生产。下面的图表展示了尚未投入生产的431个样本,并询问了他们的原因。
首要原因是他们仍在评估中,但真正的问题在于数据隐私、安全、法律、监管和合规方面的担忧对应用构成的障碍。这并不奇怪,但与大数据时代许多部署未经严格审查不同,如今大多数企业在AI方面表现得更为谨慎。然而,我们认为客户在某些方面存在盲点,并可能承担了一些并未完全了解的风险。
从AWS AI简报中汲取的洞见
正如您从数据中看到的,AWS表现不俗。但如果您认为AI是下一个颠覆性技术——我们确实这么认为——那么请注意以下两点:1)竞争格局已经发生剧变;2)AWS仍有许多工作要做。
Matt Wood分享了一个从客户AI项目中观察到的八个阶段的过程。这些阶段并不严格遵循线性顺序,但它们代表了客户正在迈出的关键里程碑和追求的目标。
第一阶段,训练。在此阶段,我们不会过多停留,因为多数客户并不直接进行深入的模型训练。他们通常选择从Anthropic或Mistral等公司获取预训练模型作为起点。AWS指出,除了OpenAI之外,大部分主流的基础模型主要是在AWS上完成训练的。Anthropic是一个显著的例子,但另一个引起我们关注的是Adobe Firefly。
第二阶段,知识产权保护与保密性。这或许是至关重要的起点。尽管我们之前展示的数据表明,许多人已经禁止在内部使用OpenAI工具,但我们确实了解到,例如,开发者发现OpenAI工具在诸多用例(如代码辅助)中表现优异。我们了解到,有些开发者的公司虽然禁止使用ChatGPT进行编码工作,但他们发现OpenAI的工具远比Code Whisperer等好得多,因此他们选择在iPhone上下载相关应用并在智能手机上使用。这应当引起首席信息安全官的重视。客户应当询问他们的AI提供商是否有人工审查输出结果?使用了何种类型的加密?安全性是如何内置到托管服务中的?训练数据如何受到保护?数据是否存在泄露风险,如果存在,应如何处理?数据流的访问如何与外部世界甚至云提供商隔离?
第三阶段,AI应用。此阶段的目标是将GenAI广泛应用于整个业务,以推动生产力和效率的提升。现实情况是,客户的用例正在不断积累。调查数据告诉我们,40%的客户正在通过挪用其它预算来支持AI项目。待处理的工作正在增加,并且正在进行大量的实验。从历史上看,AWS一直是一个进行实验的理想场所,但从当前的数据来看,OpenAI和微软在今天获得了大量这样的业务。AWS的观点是其它云提供商受限于有限数量的模型。目前我们尚不能确定这一点。显然,谷歌希望使用自家的模型,而微软虽然优先考虑OpenAI,但也已将其它模型纳入其组合中。只有时间才能告诉我们答案。换句话说,AWS是否具有可持续的优势,是通过FM的选择性还是如果它成为一个重要的标准,其它云提供商是否能进一步扩大他们的合作伙伴关系并抵消AWS的任何优势?
第四阶段,一致性与微调。例如,实现一致性和微调的RAG模型。Matt Wood谈到了AWS正在解决的“瑞士奶酪效应”(Swiss Cheese Effect )。这种情况是,如果一个RAG有数据,它的表现就很好,但如果没有数据,它就像瑞士奶酪中的一个洞,模型会产生不准确的预测。据公司称,AWS已经在填补这些漏洞或避免它们方面做了大量工作。它能够最小化低质量输出。
第五阶段,解决复杂问题。例如,深入研究医疗保健、金融服务、药物发现等行业问题。同样,这些并不是客户应用AI的线性步骤,而是AWS正在帮助客户解决的倡议的示例。目前,大多数客户还没有准备好解决这些复杂的问题,但那些资金雄厚的行业领导者有能力这样做,AWS希望成为他们的首选合作伙伴。
第六阶段,降低并预测成本。AWS并未直接称之为成本优化,但实质上就是如此。这是AWS推崇其定制芯片的领域。尽管竞争对手现在也在设计自己的芯片,但正如我们多年来所报道的那样,AWS在这方面有着显著的领先优势,这主要得益于其2015年对Annapurna的收购。
第七阶段,成功的共同用例。数据告诉我们,今天最常见的用例是文档摘要、图像创建、代码辅助,基本上就是我们所有人都在使用ChatGPT所做的事情。这相对来说比较简单,如果能够在保证安全的前提下进行,它可以产生快速的投资回报率。
第八阶段,简化。使那些没有资源或时间自行完成的人更容易使用AI。Amazon的Q就是为了满足这一需求而设计的,具有我们之前描述的开箱即用的GenAI用例。我们目前还没有关于Q应用情况的确切数据,但正在努力获取。
我们与AWS在金融服务和跨行业专业人士进行了会面,他们分享了在保险、金融、媒体、医疗保健等领域的众多用例,正如我们之前讨论的讨论一致。 AWS正在将自己定位为支持规模化的平台,并且在这方面有着出色的业绩记录。 Bedrock的应用非常广泛,已有数万客户。 我们稍微提及了上面图表中的最后三个内容——芯片和LLM多样性——生态系统合作伙伴和像Adobe这样的公司在AWS上进行训练,使用像Firefly这样的产品。 安全性、隐私和控制权仍然是重要的议题。 关于上层应用程序与Q,我们认为Q仍然是一个正在进行中的项目。打包应用程序并不是AWS的强项,但Q是一个良好的开端,也许GenAI能使他们更容易进入上游市场。
AWS AI的未来发展
OpenAI和微软已经夺走了AWS十多年的市场优势;那么,AWS能否重新夺回这一领先地位呢?为了实现这一目标,AWS计划通过与生态系统合作伙伴合作,复制其内部创新,从而为客户提供更多选择,并销售基于这些创新的工具和基础设施。
我们还需要密切关注Anthropic的发展,甚至关注到芯片领域。换句话说,与Anthropic的合作关系能否进一步提升AWS定制芯片的性能。另外,今年我们将重点关注Amazon内部推出的Olympus功能。模型选择将如何影响AWS的竞争优势,这种优势是否可持续?
模型将会变得更加普及,还是选择性将带来组合优势?如果选择性成为优势,竞争对手能否在多样性方面与AWS匹敌?
人工智能信任无疑是一个关键的决策点,但便捷的业务操作是否会成为最终胜出的关键?同时,我们还需要考虑私有人工智能和人工智能云替代品的发展趋势。
说到GPU云替代品,我们的合作伙伴VAST在这个领域表现尤为出色。在NVIDIA GTC上,我们参加了VAST与Genesis Cloud主办的午餐会,深受启发。这些公司正在迅速发展,并将自己定位为专门为人工智能云而建的云服务提供商,以与AWS等巨头竞争。因此,我们向VAST询问了他们正在合作的顶级替代云名单,除了Genesis外,像Core42、CoreWeave、Lambda和Nebula这样的公司正在筹集大量资金并获得推动。虽然并非所有公司都能成功,但其中一些无疑会对超大规模领导者构成挑战。这将对供应、需求和应用动态产生怎样的影响?
AWS能否通过GenAI作为编排器和Q作为简化抽象层来增加人工智能的应用率?换句话说,GenAI能否加速AWS进入应用程序领域,还是其战略将继续使客户在上游市场竞争?答案很可能是两者并行发展。
AWS的生成式人工智能基础设施
Source: Betsy Chernoff; Generative AI Infrastructure at AWS; 31 JAN 2024
构建、训练生成式AI模型,以及预测和提供精准、洞察深刻的输出,都离不开强大的基础设施支持。
生成高质量的合成文本、图像和其它媒体内容需要庞大的数据集,这些数据集由大型语言模型(LLM)和基础模型(FM)所处理。这些模型在训练过程中通常涉及数十亿个变量(也称为参数)。为了应对如此庞大的数据量(想想看,PB级别的数据),往往需要数百个硬件加速器,这些加速器已经集成到专为机器学习设计的芯片或GPU中。
具备高性价比的加速计算能力(包括最新的GPU和专用ML芯片),以驱动大规模的生成式AI工作负载。 高性能、低延迟的云存储,旨在保持加速器的高利用率。 最具性能和最先进的技术、网络和系统,以支持生成式AI工作负载的基础设施。 能够利用云服务进行构建,这些服务能够在生成式AI应用程序、工具和基础设施之间实现无缝集成。
生成式AI的计算、存储和网络概述
Amazon弹性计算云(Amazon EC2)的加速计算组合(包括由GPU和专用ML芯片驱动的实例)提供了最广泛的选择,以满足生成式AI工作负载的需求。
为了保持加速器的高利用率,它们需要持续、快速地访问数据进行处理。AWS通过Amazon FSx for Lustre和Amazon S3提供了这种高效的数据传输能力,实现了高达数百GB/TB的数据吞吐量。
加速计算实例结合AWS独特的技术,如AWS Nitro System、高达3200 Gbps的弹性Fabric Adapter (EFA) 网络,以及使用Amazon EC2 UltraClusters实现的E级计算性能,共同构建了最具性能的基础设施,用于支持生成式AI工作负载。
此外,结合其它托管服务,如Amazon SageMaker HyperPod和Amazon Elastic Kubernetes Service (Amazon EKS),这些实例为开发人员提供了构建和部署生成式AI应用程序的行业最佳平台。
本文将重点介绍围绕生成式AI的Amazon EC2实例、存储和网络方面的最新进展。
AWS针对生成式AI工作负载的计算能力增强
AWS针对生成式AI工作负载推出了多项计算增强功能。大型基础模型的训练往往需要海量的计算资源,而不同的项目对资源的需求也各异。因此,我们提供了广泛的选择,以满足各种规模企业的快速迭代、模型训练及准确性提升需求。2023年,AWS在计算领域发布了一系列新产品,旨在支持生成式AI的训练和推理工作负载。
其中一项重要发布是Amazon EC2 Trn1n实例,其网络带宽相比Trn1实例提升了一倍,达到1600 Gbps的Elastic Fabric Adapter(EFA)。这一带宽的提升为训练网络密集型的生成式AI模型(如LLM和专家混合模型MoE)带来了高达20%的训练时间缩减。
Watashiha公司推出的“OGIRI AI”服务,是一项创新和互动式的AI聊天机器人服务。该服务利用LLM增添幽默元素,为用户提供更加相关和对话性的体验。“为了满足客户需求,我们需要频繁地对这些模型进行预训练和微调,”Watashiha公司的CTO Yohei Kobashi表示,“我们在EC2 Trn1.32xlarge实例上预训练了一个基于GPT的日文模型,充分利用了张量和数据并行性。训练在28天内完成,成本相比我们之前基于GPU的基础设施降低了33%。随着模型复杂性的不断增加,我们非常期待Trn1n实例的推出,其网络带宽是Trn1的两倍,将极大地加速大型模型的训练速度。”
AWS在持续加强生成式AI工作负载的基础设施建设方面取得了显著进展,并宣布即将推出Trainium2加速器。这些加速器预计比第一代Trainium芯片提供高达4倍的更快训练速度,并可在高达10万芯片的EC2 UltraClusters中部署。这将大大缩短FM和LLM的训练时间,同时提升能源效率高达2倍。
多年来,AWS一直致力于GPU基础设施的投资。目前,NVIDIA已在AWS上部署了200万块GPU,涵盖了Ampere和Grace Hopper GPU系列。最近,AWS推出了专为使用NVIDIA CUDA或CuDNN的时效性大规模训练工作负载设计的Amazon EC2 P5实例,这些实例由NVIDIA H100 Tensor Core GPU驱动。相比上一代基于GPU的EC2实例,P5实例可将解决方案的加速到达时间速度提升多达4倍,并将训练ML模型的成本降低多达40%,帮助您更快速地迭代解决方案并抢占市场先机。
为了确保对热门GPU计算能力的可预测访问,AWS推出了Amazon EC2 Capacity Blocks for ML。作为主要云提供商中的首个消费模型,它允许您保留GPU以供将来使用(最多可在EC2 UltraClusters中部署500个),以支持短期持续的ML工作负载。
此外,AWS还通过Amazon SageMaker HyperPod简化了训练过程。该服务自动化了高规模容错分布式训练所需的复杂流程,如配置分布式训练库、在数千个加速器上扩展训练工作负载、检测和修复故障实例等,从而实现高达40%的训练加速。像Perplexity AI这样的客户可以弹性地扩展到数百个GPU以上,并通过SageMaker HyperPod将停机时间降到最低。
深度学习推理是AWS云基础设施创新的又一重要领域。我们推出了由AWS Inferentia2提供动力的低成本、高性能的Amazon EC2 Inf2实例。这些实例旨在在全球范围内以规模运行高性能深度学习推理应用程序,是Amazon EC2上部署生成式AI的最具成本效益和能源效率的选项。
另一个值得一提的例子是Amazon SageMaker,它支持将多个模型部署到同一实例上,实现计算资源的共享,从而将推理成本降低了高达50%。SageMaker还具备智能监控和路由功能,能够实时监控处理推理请求的实例,并根据实时情况智能地分配请求,最终实现了平均降低20%的推理延迟。
AWS在生成式AI工作负载工具方面的投入可谓不遗余力。在AWS ML芯片领域,我们专注于AWS Neuron这一软件开发工具包(SDK),旨在帮助客户充分发挥Trainium和Inferentia的性能潜力。Neuron支持众多流行的公开可用模型,包括但不限于来自Meta的Llama 2、Databricks的MPT、mistral.ai的Mistral以及Stability AI的Stable Diffusion等,同时还支持Hugging Face模型仓库中排名前100的93个模型。Neuron能够轻松集成到PyTorch、TensorFlow等主流ML框架中,并计划在今年初支持JAX。它的设计理念是,让AWS客户能够通过简单的几行代码,轻松地将现有模型训练和推理流程迁移到Trainium和Inferentia上。
AWS上针对生成式AI的云存储增强功能
在生成式AI领域,AWS云存储的增强同样不可忽视。为了加速训练和推理流程,我们致力于提升存储性能。这不仅对于处理常见的ML任务(如将训练数据加载到大型GPU/加速器集群)至关重要,对于管理检查点和响应推理请求也同样关键。AWS近期宣布了一系列存储性能改进,旨在减少计算资源的空闲时间,从而让您可以更快速、更高效地运行生成式AI工作负载。
随着生成式AI工作负载对数据处理量的需求不断增长,高性能的大规模存储变得愈发重要。为此,我们推出了Amazon S3 Express One Zone这一新型存储类别。它专为企业中最常访问的数据设计,提供高性能和低延迟的对象存储服务,尤其适合处理ML训练和推理等请求密集型操作。Amazon S3 Express One Zone在可用性区内提供了最低的延迟,数据访问速度高达Amazon S3标准存储的10倍,而请求成本却比标准存储低50%。
此外,AWS还持续优化ML框架的数据访问速度。最近,我们推出了适用于PyTorch的Amazon S3连接器,其加载训练数据的速度比现有连接器快40%。虽然大多数客户可以通过使用Amazon S3的Mountpoint或Amazon S3连接器满足其训练和推理需求,但我们也考虑到一些客户可能需要构建和管理自定义数据加载器。为了在这些场景下实现最佳性能,AWS最近宣布在AWS命令行界面(AWS CLI)和Python SDK中增加了自动加速Amazon S3数据传输的功能。现在,训练作业从Amazon S3下载训练数据的速度最多提高了3倍。例如,Scenario这样的客户已经体验到了显著的性能提升,模型下载时间的吞吐量提高了5倍,而且无需编写任何额外代码。
为了满足训练生成式AI工作负载可能面临的多样化性能需求,Amazon FSx for Lustre也宣布了按需的吞吐量扩展功能。这对于模型训练尤为有用,因为它允许您根据实际需求动态调整文件系统的吞吐量层,从而以更高的灵活性和更低的成本满足性能要求。
EC2针对生成式AI的网络性能增强
去年,AWS推出了EC2 UltraCluster 2.0。这是一个专为P5实例和未来的ML加速器设计的更扁平、更宽的网络架构。通过应用这一架构,我们成功地将延迟降低了16%,并支持高达20,000个GPU,整体带宽提升了10倍。在传统集群架构中,随着集群规模的扩大,延迟往往也会相应增加。然而,通过UltraCluster 2.0,AWS成功地在扩大规模的同时降低了延迟,这无疑是一个令人振奋的突破。
AWS始终致力于帮助您提升网络效率。例如,我们最新推出的Amazon EC2实例拓扑API,它赋予了您深入洞察实例间紧密程度的能力,从而让您能够策略性地部署作业。经过优化的作业调度将极大地加速分布式工作负载的处理速度。通过将频繁交换数据的作业移动到集群中的相同物理位置,我们可以有效减少数据路径中的多次跳转。随着模型性能的不断突破,这种软件创新对于充分发挥您的硬件潜能至关重要。
除了Amazon Q(我们备受瞩目的生成式AI助手)外,AWS还隆重推出了Amazon Q网络故障排除(预览版)。
您现在可以请Amazon Q协助您解决AWS账户中因网络配置错误导致的连接问题。为了实现这一功能,Amazon Q与Amazon VPC Reachability Analyzer紧密协作,全面检查您的连接并深入剖析网络配置,以发现潜在问题。使用Amazon Q网络故障排除,您只需以对话式英语提出网络相关的问题,例如:“为何我无法通过SSH连接到我的服务器?”或“为何我的网站无法访问?”Amazon Q将迅速为您定位并解决问题。
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/关注领域)