超大规模云与企业级IT之间的差距(CXL、GPU和网络技术)
我们讨论了一个备受关注的话题,即超大规模云和企业级IT之间的差距。我们从Kubernetes、S3再到OCP等多个角度来分析受到超大规模云启发的技术如何渗透到企业级IT领域,但同时也存在不适用的情况。
AI领域的差距尤为明显,超大规模云与企业级云存在着截然不同的部署模型。这导致技术、实施和人才之间的差距不断扩大,因此需要不同的方法和策略来满足各自需求。
另一个关注点是可持续性。超大规模云对能源消耗提出了更高的要求,因此对可持续性的关注也在不断增加。这在目前的环境中变得尤为重要,因为许多组织都在考虑如何实现可持续发展,包括降低碳排放和水资源的利用。
此外,我们还讨论了超大规模云对技术发展的扭曲作用。例如,在CXL、GPU和网络技术领域,我们可以看到超大规模云需求对这些技术的影响。这促使许多公司试图找到方法来弥合这一差距,将超大规模云技术与企业需求相结合。
我们可以看到许多公司都在努力寻找适应企业需求的解决方案,以便更好地满足不同层面的用户。这个活动为我们呈现了一个充满创新和新想法的世界,让人兴奋不已。我们期待在未来看到更多的创新,以弥合超大规模云和企业级IT之间的差距。
Stephen Foskett
Allyson Klein
Eric Wright
Nathan Bennett
Stephen Foskett:超大规模云技术的启发影响着企业级IT,从Kubernetes到S3再到OCP,但这些技术并不总是适用。以AI为例,我们可以看到在超大规模云与企业级云中存在着非常不同的部署模型,这种技术、实施和人才的差距可能在扩大。
另一个影响是超大规模云对可持续性,特别是能源消耗的需求。
我们还应考虑到超大规模用例如何扭曲技术的使用,这在CXL、GPU和网络技术中显而易见。我们可以看到许多公司正在尝试弥合这一差距,将超大规模云技术与企业连接。关于这个问题,我们可以明显看到超大规模云与企业技术之间的相互影响。实际上,现在企业和企业供应商对于他们所做的一切都使用云这个词,有时确实如此,而且许多超大规模技术实际上已经影响了企业,
看看Kubernetes的成功,它从未被设计用于企业,但现在我们到处都能找到它,我们在边缘找到它,在太空找到它。但鉴于像这样的技术实际上并不是为数据中心计算的绝大多数使用而创建的,我们如何看待这一点呢?我们如何像Allyson所说的那样弥合超大规模云和企业之间的差距?
Allyson,我会首先找你聊聊,因为你提出了这个话题,谈谈你对这个差距的看法。
Allyson Klein:我已经参与了OCP有十年了,我想我在行业中的时候曾参与了OCP成立的一些发布。我认为其中有意思的地方在于,它起初是从超大规模云想要什么,以及他们希望行业做什么的明确立场开始的。但在过去几年里,它的焦点已经扩大,扩展到边缘领域,扩展到电信,范围变得更加广泛。我认为在某种程度上,在配置方面,这个差距可能正在缩小。
但当我看更广泛的技术趋势时,有很多让我怀疑企业是否准备好采用可组合基础架构、如CXL,是否准备好利用像Chiplet架构和异构Chiplet架构这样的技术。我相信还有许多其它领域,今天的专家们可以补充,我们需要看看这些领域是否会加大差距。
Eric Wright:我绝对认为,可组合基础架构的概念非常好,当它首次出现时,我们都喜欢这个想法,我认为很多供应商都抓住了这个思路,就像说,嘿,让我们创建一个真正可插拔的体系结构,而这实际上是在云还没有成为现实之前,私有云甚至不是我们使用的词,AWS还不存在,我们当时在谈论可组合体系结构。
然后发生的事情是,云需要创建可以迅速扩展和满足需要的通用可组合体系结构,然后我们有了专业云,然后有了通用云。所以,我有一个有意思的观点,就像Allyson所描述的,我称之为“快速专业化”(Rapid Specialization)和“快速通用化”(Rapid Generalization)。我们看到AI/ML的爆发式发展,比如,我会在手机背后装上17个GPU,以便可以扫描整个世界,然后另一方面,我只想把17个树莓派粘在一起,然后运行一个Web服务器。它们都达到了目标,但有意思的是两者同时发生,我想知道是什么导致了其中的一个事物产生另一个事物。
Nathan Bennett:在谈到这个差距时,确实有很多不同的方面需要深入探讨。人们在迁移到云时希望和需要什么样的可扩展性和弹性,以及组织实际上试图实现的个别组件是什么。正如Eric所提到的,当涉及到AI时,许多人希望能够轻松利用AI,但往往他们发现云中的大多数AI资源已经被预订一空,他们必须等待和提交工单,这可能让他们感到沮丧。有时他们发现自己像在云上大喊,请求提供更多AI资源。
但最终,他们发现自己回到了自己的数据中心,努力弄清楚如何构建这个AI系统。当他们成功构建出这个系统后,却面临了一个新问题,即极高的能源消耗。这使得他们不得不思考如何解决这个额外的问题,而不仅仅是缩小现有的技术差距。
Stephen Foskett:你提到了实际使用AI,这实际上是我们播客的名字。这也正是Nathan在我们的许多讨论中经常提到的主题。问题在于,我们如何将AI技术落地,并且以对企业技术有实际意义的规模来实现。对于大多数企业和数据中心来说,超大规模云中的很多AI工作方式并不适用,因为它们好像生活在另一个星球上一样。
如果你仔细观察超大规模云中的一些AI部署,你会发现,它们已经开始对像NVIDIA和AMD这样的公司构建的大规模分布式AI系统感到厌倦,开始寻求拥有自己的芯片和架构。至于Allyson提到的OCP,坦率地说,对我来说,参加OCP峰会是一次非常有趣的经历,因为你在那里看到的东西就像是参观火星一样。你会看到超大规模云服务商对相同技术的不同看法。你会看到CXL,但他们使用CXL的方式完全不同,你也会看到AI,包括AI硬件推理和训练引擎等等,但它就好像是另一种生物一样。当我看到这些时,我会问,我们怎么说这个差距正在缩小,当对我来说看起来这个差距正在扩大。
Allyson Klein:我认为AI是这个领域中最重要的话题之一,因为如果你看看超大规模云服务商正在做什么,他们正在部署数十万个GPU和这些巨大的数据中心,他们使用高性能计算集群背景来构建这些系统,以及在紧密的协同性方面。那么,普通企业要如何能够获得GPU,更不用说获得能够为他们构建这类系统的人才呢?我认为人才差距是一个很重要的问题,它决定了他们能够充分利用的技术,以及他们不能充分利用的技术。
但我认为整个行业将会做出回应,事实也是如此,我一次又一次看到,当你看到超大规模云服务商在某个技术方向上前进时,整个行业都会观察并说,“嘿,企业市场有机会”,那么我们应该如何重新构想这项技术,以使广大企业能够充分利用它呢?我们在私有云和多云方面已经看到了这一点,以及关于企业如何使用多个云实例的思考。
他们已经采取了不同的方式,无论是基础设施还是底层架构,根据Stephen之前提到的“Kubernetes”和“太空”,我一直在考虑这一点。我的问题是,他们接下来会走向何方?
我认为CXL将是一个很好的示例,它将揭示整个行业在为大众提供可组合基础设施方面的发展方向,特别是在没有足够的人才来构建这种基础设施的情况下。
Eric Wright:Allyson,你提到的观点非常中肯,太空的类比总是非常贴切,尤其是来自外太空的计划。人们可能会问,为什么各个国家选择登陆月球,以及这一举措的结果是什么?在某种程度上,这与超大规模云服务商的情况相似,有一些工作正在那里完成,实际上,我们并没有意识到它们正在影响着常规计算。在超大规模云服务商的规模下,一些创新正在发生,因为他们的整个目标是构建可扩展的系统,然后使其易于使用、易于拆卸,他们正在寻求其它人未曾考虑的效率。
对于企业来说,不了解工作负载模式的情况下,开始大规模投资硬件实际上是一个非常不明智的决策。几乎不可能预测高数据工作负载和高网络工作负载的模式和消耗,特别是在像CXL这样的领域,甚至在供应商层面也充满挑战。
总之,我的观点是我们已经看到一些创新,现在这些创新正在逐渐传播到下一层,而我们甚至不清楚要归功于谁。这有点像依赖于Amazon、Google等巨头,因为它们已经长时间测试这些技术,而现在这些技术终于被普及采用了。
Nathan Bennett:我想强调的是,有许多不同的路径可供选择,但关于CXL和它所带来的各种功能,我们需要向大公司寻求指导,以了解哪些用例是可持续的,可以传递给中小型企业。我认为目前,中小型企业可能会寻求云计算解决方案,也许购买一些云实例来运行他们的工作负载,前提是他们具备了知道要运行哪些工作负载的技能。但还有一些大型机构,尤其是联邦政府等,我所说的“大机构”通常指的是联邦政府,可能是最大的机构之一,他们将努力弄清楚,好的,我们有一些重要的任务需要完成,包括高性能计算等等,他们将开始尝试使用CXL,看看它如何运作,然后会有案例研究开始出现,这些案例研究将引发一系列效应。
目前,据我所知,AI所消耗的电量相当于爱尔兰国家的整体电力消耗,我好像在某个新闻报道中听说过这个情况,但我不知道,我不以爱尔兰为单位来衡量电力消耗。所以我不知道具体是多少,但听起来很多。还有人说会达到瑞典的水平,但我还是想说,请给我一个确切的数字,我不知道瑞典使用了多少。它是不可持续的,这是挑战,将它从能源消耗转化为可持续性,这是我认为下一个讨论的话题,因为超大规模服务商能够使它变得非常容易,但如果你是中小企业客户,你可能很难获得一些工作负载,但如果你不是,而是规模更大的机构,你可能会自行构建,然后你可能会愿意为它付钱,直到联邦政府说,嘿,我们需要找到可持续的能源来源,这将引发一个完全不同的讨论。
Stephen Foskett:我同意你的观点。顺便说一下,在美国,我们通常以家庭为单位来衡量电力消耗,但我甚至不知道家庭的标准是什么,但我读到一篇关于AI的文章,说这个计算机集群的电力消耗相当于5.5万个家庭,我当时就在想,这是什么概念,但没关系,我们衡量距离时也用奇怪的东西,重点是我们必须考虑到,仅仅看技术还不够。
当我们开始使用CXL时,我印象深刻的一点是,这项技术本质上只是一种技术,但最初的应用非常具体,非常精准地满足了超大规模服务商的需求。具体来说,目前CXL被用于一种方式,即调整超大规模服务器的内存大小。这是因为内存模块通常只有特定的大小可选。如果你的系统需要的内存大小几乎是现有模块大小的2.5倍,那么你的选择是传统方式购买4倍内存,或者只购买2倍内存。这是因为内存容量通常按2的幂次方来规划,这也被称为二进制内存。尽管这看起来有点超前,但事实上,你需要购买最接近所需内存容量的二进制内存大小,然后再购买一个CXL模块,以满足你的实际需求。这样一来,你可以在服务器构建成本上实际节省30%、40%甚至50%。这种解决方案真的令人难以置信。
但需要注意,CXL的本意并不仅仅是用于调整内存大小,这只是一个令人印象深刻的应用。因此,Intel和AMD都表示他们正在提供这种解决方案,而Micron和Samsung也表示他们支持这一方向,通过调整内存大小,可以实现高达50%的成本节省。
至于AI,情况也类似。例如,NVIDIA为AI集群提供了两种截然不同的方案。一方面,他们提供了大规模、可扩展的多租户AI集群,另一方面,提供了单一GPU。因此,从技术应用场景的角度来看,这两种选择完全不同。
Allyson Klein:我认为,显示这种变化的一个迹象是涉及到交付这些技术的行业标准的人。当云服务提供商大规模参与制定CXL规范时,可以明显看出他们的需求将在标准的制定和技术推向市场方面得到反映。关于CXL的有趣之处在于,它基于行业标准,事实上,它本身就是一个行业标准,这将促使广泛的创新将这项技术引入各种不同领域,就像PCI Express之前的情况一样。
然而,AI领域有一些不同之处,我在我的平台上写了一些关于这一问题的文章。NVIDIA在该技术的发展方面拥有很大的话语权,无论是从GPU的角度,还是从Mellanox的InfiniBand网络技术的角度来看,这使他们在该技术发展的轨迹上具有不成比例的影响力。我们知道云服务提供商不喜欢这种情况,他们不喜欢在行业供应中出现任何不平衡,这就是为什么你会看到许多有趣的初创公司崭露头角,并投资于不同类型的AI训练加速引擎。我现在对这个领域的一部分非常感兴趣,因为它实际上在表明存在一种权力动态失衡,而行业创新将努力找到方法来重新平衡这种失衡。
这将如何影响企业呢?我认为企业有机会利用这项技术的一部分,因为正如以前Eric或Nathan所提到的,目前无法在云中访问GPU集群,对于他们来说,这就像有人在风中大声呼喊。因此,这可能是另一个途径,让他们能够获得这项技术。
Eric Wright:是的,我们将目睹网格计算的兴起。当我们一起参与这些集体项目时,你只需让你的计算机保持开机,它会在后台默默运行。就像TidalScale公司实际上有这个理念,他们将分散的计算机集结在一起,将它们视为一个内存池和一个存储池,并构建了一种方法来实现这一点。性能曾经非常出色,但这意味着他们正在消除像CXL这样的标准带来的本地限制。现在,CXL已成为一个广泛接受的标准,我们都认为这是前进的方向。
尽管如此,InfiniBand也非常出色。但它并没有像ATM直接进入台式机那样被世界快速采纳。我曾在一家金融服务公司工作,我们一直在思考如何提高台式机的速度,同时网络也在不断演进。我们拥有更好的优化方法,而不必将ATM链接直接延伸到台式机。
我对这个问题非常感兴趣,就像CXL一样,我认为它的时机非常完美。但问题是,作为一个企业数据中心的系统架构师,我们是否真的会关心它呢?CXL是否真的很重要,还是会像PCI Express一样,只是存在而已呢?你知道,真正有趣的是我们将如何使用它。
Nathan Bennett:在讨论CXL时,需要记住一点,它已经在使用中,就像Stephen所说,它已经存在,有人正在使用它,并试图弄清楚它。我认为现在我们还不太清楚CXL究竟会给我们带来什么,尽管它已经成功实现了其非常具体的目标,但它还有其它可能的用途,我们看到了它的潜在价值。
Kubernetes是一个很好的例子,我几乎在每次讨论中都会提到Kubernetes。但你提到的是,Kubernetes只是为了让开发人员的日子更轻松,接下来,我们看到了太空中出现了Kubernetes集群。因为,拥有一个紧凑、可控的循环,用于维护应用程序并确保其一直正常运行,是非常有价值的,甚至可以说是必不可少的。
CXL将成为一个类似的事物,并发展成为超大规模。大公司将会参与其中,并尝试率先解决相关问题。
我认为,也许明年或后年将会考虑,如何将CXL与私有云架构相结合,有多少GPU将与CXL一起工作。还有一个有意思的事实,如果我要扔我的骰子并说,好,让我们来个大胆的预测,那就是,也许Intel正在开发比NVIDIA GPU更可持续的GPU。也许这将成为另一个问题,我不想深入研究这个话题,但我只是提出一个大胆的预测。
Eric Wright:回顾一下Allyson的话,看谁参与了CXL标准的制定是至关重要的。当我们谈论云服务时,X年前,不管X是什么,我们都知道我们在谈论谁,我们在谈论Amazon以及那些在追赶Amazon的其它公司。而今天,当我们谈论云服务时,我们涉及的是企业云,CXL横跨网络、存储和计算。在云计算领域,我们有数据专家、网络专家、芯片专家、虚拟化专家等,大家协同合作。
在这个情境下,你会看到Fortinet、WEKA和AMD这样的公司汇聚在同一个演示空间,这是因为我们都在共同运用这些已经制定的核心原则。现在来看,我认为这非常令人振奋,因为我们都坐在同一桌上,共同探讨它们如何相互影响,没有人认为它只是一个为特定问题而建的解决方案,就像OCP那样。OCP最初是由Facebook发起的一项实践,用于解决Facebook的问题,当时他们是最主要的参与者,后来其它公司也纷纷加入,如今我们都从中受益。总之,我对此充满期待,因为我喜欢做一个通才,能触及各个领域。
Allyson Klein:Nathan提到了一些关于可持续性的重要问题,首先,他提到了一个新的绿色能源定义,即爱尔兰。另一个问题是关于嵌入式能源,以及谁在制造最具可持续性的芯片和基础设施。我认为这将成为一个重要的主题,也可能成为企业重新参与讨论的一个推动因素,因为组织正在履行气候承诺(《温室气体议定书》),关注范围一(Scope 1)和范围三(Scope 3)的落实情况。
我认为OCP组织在这方面的可持续性关注将起到巨大作用,尤其是考虑到他们正在制定一些关于碳排放和水资源利用的度量标准。这些主题绝对可能产生比超大规模环境更广泛的影响。
Nathan Bennett:这将是这些讨论成功的关键因素之一。我们看到新闻报道了有关这些解决方案不可持续性的问题,每个人都希望加入并推动它们,但这只会极大地增加能源消耗,导致其它问题,最终可能迫使政府做出决策。我可以披上我的防弹帽,开始提出阴谋论,再次对着云高呼,我们的目标是确保这些解决方案对人们来说是可持续的。
Allyson Klein:我认为其中最有趣的一点是,看看超大规模服务商如何帮助我们创造了这些创新,以及我们如何将它们推广到大众市场,并找到变现这些技术的方法,以满足企业正在采纳的人才储备和规模。因此,我很好奇你们对下周我们将在哪些领域看到这种创新的看法。
Nathan Bennett:上周,我和妻子一起观看《英伦魔法师》(Jonathan Strange & Mr Norrell),其中有一句评论引起了我思考,魔法不应该充满奇迹吗?它不应该是神奇的吗?这就是科技的乐趣,因为我们所做的事情是疯狂的,当我们思考CXL,如果我们把CXL带给90年代的某人,那个时候正试图弄清楚如何做当时发生的不同的事情,它似乎像是魔术,看上去不真实,似乎这些事情会发生,这是我们所要处理的奇迹。
这种奇迹最终会回归现实,我们都会理解它,并且对它产生兴趣,借用另一句话,当它变得乏味的时候,通常是因为我们都在使用它。
Stephen Foskett:所以看看向企业展示的东西,不管是在市场上还是特别是在云领域,有一点让我感到非常兴奋,这就是你们都提到的缩小差距和实现这些技术。
看看在Cloud Field Day活动上展示的公司,我现在正在看这个名单,WEKA在做什么,Prosimo在做什么,Mezmo在做什么,其它公司在做什么,基本上都是关于如何获取已经为超大规模云提供商开发的所有这些酷技术,并找出如何重新打包它,调整它,使它适用于企业。我认为他们对技术所做的改进,以及如何连接它,都非常有意思。
比如,我们讨论过CXL,你看看MemVerge在做什么。我们已经谈论了机器学习,你看看其它一些公司在做什么,比如WEKA肯定会谈论分布式数据,Prosimo谈论连接超大规模网络并使其对企业有意义,Juniper谈论从超大规模获取技术并使其对企业有意义,这就是他们所有人的讨论内容,因为这是企业的商业模式,作为Cloud Field Day代表,这是我们看待这些演示的透镜。
Eric Wright:我认为我们看到的每一件事,特别是在可持续性方面,都是我们的责任,要寻找如何降低风险,如何减少浪费。无论是IT,还是CEO,我们最终都有相同的责任,那就是减少对我的公司以及地球的风险,而且我必须减少不必要的浪费。如果你尝试在任何大规模上进行企业计算,从可持续性的角度来看,这实际上是不负责任的,因为我们应该使用已经实现可持续性的服务商,为什么不将所有资源都投放到像AWS、Oracle、Alibaba等云服务商身上呢?但我们知道我们不能这样做,因为我们不想合并所有工作负载,我们必须创建我们自己的风险减少措施,即分散工作负载,不要花费太多。
Stephen Foskett:这听起来很熟悉,就像Cloud Field Day的口号:你不是Google。
Eric Wright:对,是Google的基础设施适用于其它所有人。Alex Povey创造了这个词汇:Red Hat历久弥新,并深埋于Red Hat密钥库的某个角落。Alex谈到的东西每天都在发生,因为我们正在运行由核心DNS团队构建的Kubernetes。所以我们有这些东西,因此,我们正在看到实际的实施和商业用例,网络、数据和计算都必须关心结果,我们都必须关心如何优化结果,这非常令人兴奋。
Allyson Klein:我观察的一件事是,公司是否只是在做基本的工作,了解客户的需求、客户的期望以及客户的限制,然后是否在重新构想技术以满足客户的需求。我认为Cloud Field Day从来不会让人失望,总会有一些公司带来这些令人惊叹的想法。你从内心知道,客户们终于可以信心满满地部署这项技术了,它将是颠覆性的,也许这项技术并不是第一次出现,但这是第一次以可部署的方式存在,这令人兴奋,我期待着它。
Nathan Bennett:是的,我完全同意这两点。当你看到供应商带来的东西,你的第一反应是哦,终于,这是我在IT领域一直苦苦挣扎的东西。我知道我有很多客户或朋友或用户,不管怎么说,你看到这个解决方案,它就是有道理的,你终于可以站起来说谢谢你创造这个,这是Cloud Field Day的一个令人兴奋的部分。
看到那些人来,我非常期待看到一些我们都熟悉的老解决方案,VMware也会来,看到他们的解决方案将会是好事。我喜欢问这些问题,关于这些特定的事情,Stephen,你问关于作为代表能够代表用户发声。我仍然是一个用户,我会说,这是否使我的日子更容易,或者使我的日子更困难,这是否只是让本应更容易的事情变得更加复杂,还是让某些复杂的事情变得更容易。
例如使用生成式AI来开发基础设施代码以进行部署。我是说,我们每天都使用Stack Overflow来做这件事,但你的意思是,实施AI的能力以一种实际有用的方式来开发代码,这是我期待看到的,希望在那里能看到一些相关内容。
Eric Wright:正如人们常说的,我不能相信AI能够编写代码,因为它只会整天坐在Stack Overflow上寻找最佳答案,我认为这就是开发团队正在做的事情。
Stephen Foskett:对此,我完全同意。
事实上,大约15年前,当我开始Field Day活动时,将你们称为“代表”是我当时做出的最好决策之一。因为你们的任务是坐在那里,成为终端用户的代表,成为那些人的代言人。
我认为你们每次参加Field Day活动时都成功地完成了这一任务,我感觉就像你们围坐在桌旁,你们代表了客户的声音,代表了企业的声音,代表了部署者的声音,代表了普通人的声音。然后说:嘿,我不确定我是否理解这一点,或者我理解了,但我以与超大规模服务商先生或供应商不同的方式看待它。
对我来说,这就是Cloud Field Day的魔力,它真正与我们进行的整个对话相联系。所有这些技术都是为超大规模服务商开发的,我们展示了OCP峰会上展示的所有这些内容,我们拥有所有这些关于云技术的东西,云技术,然后我们有所有这些人和公司试图弄清楚如何使这些技术更有用,更适合部署在企业中,这就是我们每次参加云服务商领域的活动时所看到的情况。
---【本文完】---
近期受欢迎的文章:
我们正处于数十年未见之大机遇中
新技术爆发式发展,催生新产品
然而,颠覆式创新并非简单的技术堆叠
而是异常复杂的系统工程
需要深度洞察
欢迎一起分享思考和见解