查看原文
其他

深度解析DPU:技术革新与市场展望

常华Andy Andy730
2025-01-01
  • Webinar: The Rise of the DPU
  • 时间:2024年3月28日
  • 主持人:Ron Renwick(Achronix)
  • 嘉宾
    • Scott Schweitzer(Achronix)
    • Baron Fung(Dell'Oro)
    • Patrick Kennedy(ServeTheHome.com)

-----

Ron Renwick(Achronix)

这是一个持续演变的过程。我们多年来一直在讨论革命与演变的问题。NIC最初仅负责接收数据包并将其转发到主机。如今,它还负责从主机接收数据包并将其发送出去。当审视一个NIC时,它的作用是什么?这是从过去的1-Gig、10-Gig时代向前发展的过渡。

随着NIC行业的发展,增加了简单的卸载功能。早期,TCP通过TOE引擎进行卸载,进入了VXLAN阶段,并进行了非常简单的卸载。当时,我们称这些设备为智能NIC(SmartNIC),因为它们比没有卸载功能的NIC要好。

随着10-Gig和25-Gig的出现,我们大致进入了所谓的高级智能NIC阶段。网络技术的演进最初会影响CPU,然后开始将这些功能卸载到NIC上。卸载功能包括交换、NVMe功能和加密能力。我们不再仅仅使用旁路设备,而是开始使用内联设备。这一时期包括25-Gig和早期的100-Gig。

接下来进入了DPU时代。这个演进过程将处理器核心引入了高速NIC数据路径。这使得整个服务器功能可以在NIC卡或DPU上运行,主要是在100-Gig和400-Gig的空间中。这个处理器体积更大,卡上增加了内存,可能还配备了基板管理控制器(BMC)。这展示了我们多年来的演变过程。

现在的主要模型包括系统芯片(SoC)设计,这种设计将NIC管道与嵌入式处理器集成到一个ASIC或FPGA中。ASIC的优点在于其紧密耦合的架构,可以在标准环境中编程。而FPGA的优点在于其高度并行化、加速的数据路径。随着带宽的增加和数据包的检查,接收每秒数亿个数据包,高度并行化的架构变得至关重要。今天主要有这两种类型。早期模型较少见,但有些地方可能仍在使用。

以上就是DPU的简要概述。

Baron Fung(Dell'Oro)

让我用几分钟时间谈谈我们对DPU市场的看法。

DPU,全称数据处理单元,是一种先进的网络适配器,用于连接数据中心的服务器与其他网络。这种设备可编程,能提高服务器的利用率并降低整体功耗。预计DPU市场将从目前的约20亿美元增长到五年后的60亿美元,年均增长率约25%。这个预测还不包括大规模GPU计算集群的后端网络市场,后者可能会进一步扩大市场规模。目前,DPU市场主要由美国四大超大规模云服务商主导,即Amazon、Microsoft和Google,他们正在为数据中心的几乎所有服务器开发定制DPU,无论是自研芯片还是商用芯片。这些超大规模云服务商正用DPU替代传统网络适配器。其他市场细分领域,如中国四大超大规模云服务商、大型二级云服务商和企业,也存在增长机会,它们通常采购标准的现货DPU解决方案。

DPU能带来哪些好处呢?一些超大规模云服务商已使用DPU多年,以提高数据中心的运营效率。如左图所示,在没有DPU的整个服务器中,网络、存储和安全服务等基础设施开销都依赖主机CPU。在这个例子中,几乎一半的CPU核心被这些开销服务占用。使用DPU后,如右图所示,可以将这些基础设施相关的开销从主机CPU核心中卸载到DPU上,从而释放主机CPU核心,使最终用户可以运行自己的应用程序。由于DPU是可编程设备,它们可以针对各种使用场景进行优化,如网络安全卸载(如TCP/IP和虚拟防火墙)、存储卸载(如通过网络结构的NVMe和内联数据加密)。软件定义网络(SDN)是另一个使用场景,可以优化网络流量和负载均衡。DPU对基于AI的网络也有好处,可以减少网络拥塞并支持多用户。

我们通过客户细分领域来查看DPU的应用率或渗透率,按服务器的总体可用市场来划分。2023年,美国和中国的超大规模云服务商占据了全球服务器总量的一半以上。约一半的超大规模服务器配备了DPU,其中大多数部署来自Amazon、Microsoft和Google。一些其他超大规模云服务商,如阿里巴巴和Oracle,也在大量使用DPU。一般来说,云服务提供商的基础设施越大,DPU的部署就越具有可扩展性和效果。到2028年,DPU将在美国和中国超大规模云服务商中得到更广泛应用,几乎每个超大规模云服务商的服务器都会配备DPU。其余市场,包括大型企业、小型云服务商和电信运营商,仍有相当大的市场机会。2023年DPU的渗透率不到2%,预计到2028年将增加到10%左右。虽然存在上行潜力,但需要供应商共同努力解决总拥有成本的一些挑战。

随着时间推移,已经出现了几种DPU的供应商模式。首先是表格中黄色部分所示的封闭供应商模式。像Amazon这样的提供商多年来一直为自己的数据中心构建定制DPU和网络适配器。阿里巴巴也在开发自己的DPU,努力实现中国市场的芯片自主。Microsoft在2022年底收购了Fungible,可能会利用收购所得的知识产权来为自己的定制AI网络提供支持。在下方展示的另一种模式中,黄色部分包括Achronix、AMD和Intel等芯片供应商,他们为云服务提供商制造商用DPU处理器,使其能够构建自己的定制网络适配器。还有一种模式是,芯片供应商可以将现货DPU适配器销售给资源不足以自行构建的较小云服务商、企业和电信市场。

最后,总结一下我的观点,DPU市场目前规模约为20亿美元,尚不算庞大。然而,这一市场预计将比其他数据中心领域(如CPU市场)增长更快。新的AI基础设施可能进一步推动市场增长。超大规模云服务商可以利用DPU提高服务器利用率,因为他们具备足够的规模。到目前为止,DPU市场主要还是封闭或被超大规模市场主导,但开放供应商也在取得良好进展。尽管DPU在非超大规模环境中的应用仍然有限,但只要供应商解决了与传统适配器相比的高成本、高功耗和更多软件复杂性等关键挑战,市场仍然存在上行空间。

Ron Renwick(Achronix)

我认为这里有一个非常重要的话题,那就是DPU主要是超大规模云服务商用来凸显自身优势的一项技术。对话中的很多人可能并不在超大规模云服务商工作,他们可能会想:“这些技术什么时候才会普及到我们这里?它们对我们又有什么意义?”因此,也许我们可以请Patrick来谈谈DPU的技术细节。

Patrick Kennedy(ServeTheHome.com)

2021年,我创建了这个STH NIC Continuum。至今,这个图可能已经被数十万,甚至几百万的人观看过。它对我们来说非常受欢迎。Ron将NIC分为四个不同的部分。Baron为了市场追踪目的将其分为两个部分,但我们也将其分为了五个部分,因为我个人喜欢奇数。你从一个非常低端的NIC开始,如果你考虑一个例如笔记本电脑中的NIC,那会是无线NIC。你在小型PC中也有NIC,比如在我背后的屏幕上运行的那种。这些通常价格几美元,速度较低,我们称之为标准NIC。坦率地说,要实现1G网络或2.5G网络,你不需要大量的卸载功能,这不会对现代CPU造成太大负担,成本也较低。这是市场上最具成本效益的细分领域。

接下来是卸载NIC,即使到今天,这也是一个巨大的市场。能够处理更高速度的设备,你会看到一些功能,比如校验和等,在更高速度如100G网络时,这些功能的卸载就变得非常重要。接下来的就是SmartNIC。SmartNIC发展成为下一代功能,主要关注网络方面。有些还稍微涉及存储,但总体来说,这是功能的下一个层次。如今,人们真正关注的是DPU和我们所称的“异构”技术,我会稍后解释。

DPU与传统NIC有几个不同的特点。其中一个重要的特点是高速度的网络。我们讨论的包括100G、200G、400G网络。未来,我们还会谈到它具有CPU核心。我们通常会看到管理CPU复杂系统。接下来,我们会看到板载内存和存储。它们通常会运行自己的操作系统,这在未来DPU的操作模型中非常重要。另一方面,如果你在上面运行自己的操作系统,你还需要非常关注安全性。

讲到异构技术,我将传统的DPU视为系统芯片(SoC),而异构技术则是指FPGA。很多人会说:“嘿,你可以在FPGA中实现DPU,”这完全正确。例如,一些中国的超大规模云服务商,我们在ServeTheHome网站上做过相关视频,他们实际上是将FPGA与类似Xeon D的处理器结合,制作成DPU解决方案。关于架构,通常可以看到几种模型。一种是使用大量ARM核心进行卸载,还有一些人使用可编程的P4管道。还有一些人使用FPGA进行完全自定义的解决方案,还有人研究RISC-V版本的DPU。从整体来看,确实有很多进展,但大家在DPU上做的事情有几个关键主题。希望这能让你了解这些技术的构建方式。

问题:DPU在AI和ML环境中的应用及其可能带来的好处。

Scott Schweitzer(Achronix)

我们将看到DPU或类似DPU的技术进入AI/ML领域,因为AI/ML中网络的目标是降低延迟、提高计算模块之间的确定性,并提供极高的带宽。DPU可以帮助实现这些目标。在像我们Achronix这样的FPGA环境中,我们有一个高性能的2D网络芯片,工作频率为2 GHz。这使我们能够动态定义芯片上的逻辑块,实现不同适配器之间的高速互连,并将每个FPGA芯片上的2500个ML核心连接到其他板上的ML核心。因此,你会看到这种类型的技术,它可能不仅限于独立的DPU插槽或板卡,还可能作为逻辑块出现。但正如我们在NVIDIA最近的一些公告中看到的,他们将BlueField-3技术直接应用于AI/ML领域。所以,我认为我们会看到这项技术与AI/ML领域的完美融合。

Baron Fung(Dell'Oro)

首先是将控制平面功能,如存储和网络功能,卸载到DPU上,用于这些AI集群的前端网络,也就是我们所说的南北向流量。这本质上提高了这些加速服务器的资源利用率。此外,在GPU计算平台的扩展集群中,DPU可以帮助实现多租户系统使用,允许多个用户共享这些大型训练系统。这提高了资源管理、安全性和用户隐私保护。

另一个优势是,在扩展的GPU集群中使用DPU来处理东西向流量,即连接所有GPU服务器的一对一或大规模网格的后台网络。目前,这些后台网络通常使用InfiniBand,这是NVIDIA为其GPU开发的专有网络。InfiniBand在低延迟和拥塞控制方面相较于以太网具有固有优势,但在基于以太网的网络中使用DPU可以帮助克服这些固有限制,尤其是在扩展集群中。因此,任何寻求开放架构(如基于以太网的网络)并希望获得多个供应商支持的人都可以考虑将DPU纳入他们的AI基础设施中。

Patrick Kennedy(ServeTheHome.com)

我们讨论AI集群时,很多人现在将AI集群与训练联系在一起。在这方面,NVIDIA的DGX或HGX平台非常受欢迎。从收入数字上看,它们也得到了很好的支持。他们做的一件事就是将BlueField解决方案整合到这些平台中,当你看到像上周刚刚宣布的NVL72这样的新解决方案时,你会发现这些平台上都装有BlueField-3 DPU。从训练的角度来看,这些将会与NVIDIA的产品捆绑在一起,这是他们将要推动的方向。

当我们讨论AI/ML时,需要超越基础设施的层面。推理基础设施将会是一个非常吸引人的领域,这将是一个大规模的建设项目。一旦模型训练完成,需要能够服务大量用户。在这种情况下,DPU非常有意义,因为许多DPU实际上使用以太网网络,这些网络通常面向用户。能够将任何计算,特别是昂贵的CPU计算,卸载到DPU上是非常重要的。但更进一步说,AI推理不仅仅发生在数据中心。AI推理需要在各种计算场景中进行,无论是在数据中心的服务器、超市的服务器,还是街边小摊(虽然这个例子可能有些夸张)。DPU的理念是保护终端,卸载大量网络和存储功能,并将AI推理能力集成其中。这不仅有助于管理存储、网络和计算设备,还可以在边缘设备上进行AI推理。一些人正在考虑将AI加速功能集成到DPU中,这样主机可以利用这些额外的计算能力。我认为AI领域中会有许多不同的实现方式。

Ron Renwick(Achronix)

现在让我们换个话题。作为一名在网络领域工作了这么久的人,从1G到10G,再到25G,这种速度的变化几乎有些乏味。关键问题在于我们从智能NIC(SmartNIC)到DPU的功能扩展。Scott,我想让你谈谈我们预计DPU在速度之外的发展方向。不仅仅是800G、1.6T等问题,而是你认为DPU将会添加哪些功能或特性,以使其成为更有效的网络元素?

Scott Schweitzer(Achronix)

在Achronix,我们正在努力将超大规模数据中心中获得的技术价值转移到其他市场。Amazon和Microsoft通过在DPU中嵌入巨大的流表,利用FPGA作为逻辑块来实现流表功能,并前置多级规则引擎。这意味着当数据包进入一个全新的流时,它会首先经过规则引擎,根据规则决定如何处理数据包,然后使用快速路径方法更新流表,以便后续的数据包能够更高效地处理。这种将超大规模技术引入到中型数据中心和企业中的方法,可能会成为DPU领域的下一次重大创新。

Ron Renwick(Achronix)

Patrick,从功能角度来看,因为你做了很多拆解工作,你对未来的发展有什么看法?

Patrick Kennedy(ServeTheHome.com)

我认为DPU领域现在非常有意思。我知道你之前提到过关于非超大规模数据中心的评论。我们之前做过关于VMware ESX和NVIDIA BlueField-2的分析,此外,我们也分析了AMD Pensando的DPU。目前,这些主要集中在网络功能上。我认为下一步很可能是存储领域。存储通常是我们讨论DPU当前应用时的第二大领域。未来,我们会看到更多专注于存储的DPU,因为这是第二组易于理解和消费的功能。更有意思的是,类似AWS Nitro的模型如何进入大众市场。我认为这是决定DPU未来发展方向的关键。

Ron Renwick(Achronix)

DPU如何突破超大规模市场,进入中小企业市场?有没有什么特定的功能可以支持这一点?

Patrick Kennedy(ServeTheHome.com)

超大规模市场以下的领域确实非常有意思,同时,大型银行和其他金融机构也值得关注。我认为许多人面临的一个挑战是,如何将DPU的最新功能或基础特性引入市场。以AWS Nitro模型为例,它将虚拟化和许多基础级别的功能转移到DPU上。这样,你就不会用CPU核心来运行虚拟化软件、网络或存储功能,而是用专用加速器和CPU核心来卸载这些任务,从而释放出昂贵的CPU资源用于其他工作。

那么,接下来我们需要考虑的是,如何将DPU提升到下一阶段,这实际上是一个挑战。我们如何设计一个操作模型,使得DPU能够处理所有这三方面的功能?我们如何在DPU上运行虚拟化管理程序以卸载这些功能?如何实现存储卸载?如何实现网络和安全网络功能的卸载?我认为这是一个非常有挑战性的问题。VMware可能在这方面走在了前面,他们确实应用了自己的软件栈,决定在实际的DPU上运行ESX(一种特殊形式的ESXi)。他们从网络功能开始,然后是存储,接下来的规划是,在存储之后,他们将开始考虑主机配置等其他功能。

从VMware的角度来看,将平台上的虚拟化功能和责任转移到DPU上是吸引更多用户的好方法。我认为这是一个重要的方向。我知道Red Hat也在这方面做了很多工作。我认为,真正能够明确未来的操作模型,并将功能迁移过去,是关键之一。与此同时,虽然我们可以逐步实现更好的功能卸载,但要让更多人接受DPU,必须改变操作模型。这是一个巨大的工程。

Ron Renwick(Achronix)

Baron,你之前提到过超大规模数据中心的情况,目前这个2%的数据是指超大规模数据中心对DPU的应用率。那么,我们可以简单讨论一下超大规模数据中心如何改变DPU的角色,是否这种情况会保持在当前水平,或者增长到10%是否会超出超大规模数据中心的范围。

Baron Fung(Dell'Oro)

超大规模数据中心不仅对DPU市场产生了重大影响,也对整个网络适配器市场造成了广泛冲击。特别是近年来,许多大型云服务商都在部署自己定制的DPU。举个例子,去年Microsoft、Amazon和Google占据了约60%的DPU市场收入,这个比例相当可观。正如我所说,他们不是购买芯片厂商的现成适配器,而是选择自行研发,有时甚至开发自己的ASIC,例如Amazon通过收购Annapurna实现的。此外,他们还会直接从供应商那里采购芯片,构建自己的解决方案。通过这种方式,他们能够利用规模经济实现显著的投资回报,通常每年出货和部署数百万个DPU。这正是他们能够成功的原因。

超大规模数据中心之所以能在DPU领域取得成功,是因为他们能够实现高度的集成,并拥有自己的内部软件开发团队来优化整个DPU技术栈。从网络和存储的角度来看,所有卸载功能都可以得到优化。在多租户环境中实现DPU,确保裸金属服务器与其他工作负载之间的隔离缓冲,这些都是任何提供基础设施服务的云服务提供商至关重要的元素。由于高度的集成,超大规模数据中心还可以在供应链中减少中间环节,从而降低成本,并更好地控制产品路线图和供应链。DPU在这些超大规模数据中心中变得非常重要,因为它们在优化通用服务器、存储以及新的AI部署方面发挥了关键作用。

问题:涉及不同类型DPU的使用场景,包括紧密耦合的SoC和FPGA。具体来说,对于高流量数据包,为什么选择FPGA而不是带ARM核心的SoC?能谈谈在什么情况下会选择可编程元素而不是基于CPU核心的元素吗?

Scott Schweitzer(Achronix)

有几个使用场景。例如,我们目前正在与电信公司合作,支持他们的6G部署,以加速技术进步,未来实现高达400 Gbps的以太网。他们有各种需求,包括对4G的支持和流水线阶段模型。另一个最近的开发是流通壳体,这种做法有些特别。从安全角度来看,它类似于中间人攻击的实现方式,流量从一个端口进入,经过修改后从另一个端口离开。它也可以反向流动,这在现成的网卡设备中通常不做。此场景的目标是保持线速,减少延迟,仅对特定数据包进行转换。

安全性是这个领域的另一个重要方面。例如,流表和规则引擎非常适合防火墙实现。我们正在与几个防火墙公司合作,在DPU中实现能够支持数千万个连接的防火墙,过滤掉不良行为。系统可以丢弃来自已知恶意IP地址的连接。网络分析是另一个重要应用。

问题:DPU如何协助处理EVPN、VXLAN和NAT?传统上,这些功能由Cisco和Juniper等厂商的设备承担,但一旦涉及到40Gbps的性能,这些解决方案就会遇到瓶颈。DPU和FPGA如何帮助转移部分网络功能以处理更高的速度?

Scott Schweitzer(Achronix)

你可以通过创建处理这些特定流量的流水线阶段来实现。例如,NAT(网络地址转换)是一个典型的例子,非常适合在FPGA中实现。这类功能通常可以在防火墙或类似设备中找到。VXLAN(虚拟扩展局域网)也是如此。你要做的就是卸载主机CPU、企业Web服务器或流量服务器上的负担。现在,创建一个提供这些功能的流水线阶段并不特别困难。如今的DPU拥有大量内存,通常以GB为单位来衡量。跟踪这些连接和保持状态也不是很难实现。很多这些功能可以转移到DPU上,尤其是基于FPGA的DPU上。

问题:DPU在OpenStack等基础设施发展中的未来如何?

Patrick Kennedy(ServeTheHome.com)

我不会详细讨论具体的发展路线,但可以给出一个思路,这不仅适用于OpenStack,还适用于其他各种解决方案。我认为,将DPU视为基础设施的安全堡垒或前沿阵地是一个非常有意思的角度。假设你有一个由基础设施提供者(无论是企业、托管服务提供商、云服务提供商还是其他任何机构)管理的DPU,并且可以保证它的安全,那么你就可以基于它来配置各种服务,无论是主服务器CPU上的虚拟机,还是从网络引入的存储,或者是对现有基础设施的安全网络。将所有这些功能都集中处理在DPU上是非常重要的。

有像OpenStack这样的项目,同时很多人也有自己的解决方案。将DPU与这种模型集成起来是非常重要的。我认为,这能带来很高的应用率。这也会推动DPU在超大规模数据中心之外的更广泛平台上得到应用。

问题:GPU是否能随着时间的推移,因其价格下降而取代DPU?

Ron Renwick(Achronix)

我不认为GPU的价格在下降。实际上,我们看到的是更强大、价格更高的GPU。当然,随着竞争加剧和供应链的开放,这种情况可能会发生变化。

Baron Fung(Dell'Oro)

是的,这种可能性是存在的。关键在于服务器架构中是否有针对特定应用的专用芯片。专用处理器是为特定任务设计的。你不希望GPU或DPU处理所有的任务;它们应该专注于特定的任务。特定的DPU专注于网络和存储服务,而GPU更适合训练,无论是AI训练还是推理。这些芯片是为这些特定任务设计的,以实现最佳的功率效率。因此,即使GPU价格下降,也不太可能取代DPU。然而,将来GPU可能会演变以支持其他用例和形态因素。例如,在边缘计算中,你可能需要一块为边缘工作负载设计的芯片,能够同时处理推理和网络相关任务。最终可能会出现融合,但可能不会以现在的形式出现。

Scott Schweitzer(Achronix)

从数据类型的角度来看,如果你考察这个问题,你会发现网络中流动的所有流量本质上都是基于字符的。虽然它们可能看起来像股票数据、视频或其他类型的数据,但归根结底,这些数据都是整数。GPU是为浮点运算设计的。即使你考虑到Jensen对浮点数的处理,它仍然是带有小数点的浮点数。这种数据并不是网络适配器中流动的数据类型。另一方面,FPGA本质上是一个大规模的逻辑门阵列,用于按位操作数据。由于网络数据是基于字符的,不涉及小数点,因此FPGA在处理这种数据时比GPU更高效。例如,Achronix Speedster7t 1500拥有近75万个逻辑门和四个400G以太网接口。它可以从这些接口中提取数据,处理后以线速输出。虽然GPU在某些场合有其用武之地,但它们并不特别适合处理网络数据。

Ron Renwick(Achronix)

让我们稍微转变一下话题,谈谈物联网(IoT)和边缘计算。虽然超大规模数据中心主导了DPU市场,但还有其他潜在的应用场景。当人们参加这些网络研讨会时,他们常常会问这些技术如何影响到他们自己。Patrick,你觉得在边缘计算中,DPU可能会有哪些应用场景?

Patrick Kennedy(ServeTheHome.com)

我们目前正在重建我们的托管集群,并深入讨论了是继续使用防火墙还是转向DPU。这听起来可能有些不寻常,但DPU的性能与许多现有防火墙相当。展望未来,先进的防火墙越来越多地利用AI推理来判断某些流量是否合法或恶意。问题在于,下一代DPU或具有AI加速器的FPGA是否可以胜任这一角色。

问题是,这是我们应该做的吗?我之前提到过热狗摊、杂货店等这类场景。现在看看杂货店或银行分行,你会发现它们都有现场部署的基础设施。比如说,我的银行分行如何确保其本地服务器的安全?在这种情况下,在服务器机箱中部署DPU是一个很好的例子,展示了如何将安全性延伸到边缘位置,或者如何在这些边缘场景中创建安全环境。

从这个角度来看,我认为DPU确实有潜力向边缘发展。但主要面临两个挑战:首先,由于通常会运行一个操作系统,因此存在较大的安全攻击面;其次是功耗问题。目前,我认为还没有人能在15瓦功耗范围内实现真正的400Gbps DPU。当我们考虑机器人技术和这些移动设备时,功耗可能是一个大问题。如何将这些功能压缩到更低功耗的设备中,这是一个值得思考的有意思问题。即使在小型家用主机中,DPU在某些情况下也开始变得有意义。

Ron Renwick(Achronix)

GPU为我们做的一件事是,让我们接受了PCI插槽上更高的功耗。PCI插槽的功率可以更高;你可以使用外部转接器,但现在很多显卡已经达到200瓦、250瓦等。这就让人觉得,“哦,我可以使用50瓦的网卡”,而且感觉并不那么糟糕。这是一个有意思的观点,尤其对网络设备厂商来说。

Scott Schweitzer(Achronix)

当你讨论这些问题时,你是否在谈论功率需求和PCIe通道的演变?例如,最初的PCIe设备是15瓦,Gen 1 x8,然后我们过渡到Gen 2和3的x16,功率增加到x8的35瓦和x16的75瓦。现在,DPU的功率需求已经达到100瓦甚至更高,有些DPU超过了200瓦。功率需求的激增确实很显著,现在我们甚至在考虑水冷解决方案。

问题:关于安全考虑,必须解决DPU中集成处理器潜在的漏洞,包括硬件侧信道攻击和其他形式的网络攻击。在这些处理器的设计阶段是否充分考虑了这些问题?因此,这些处理器能否被称为“安全DPU”?

Scott Schweitzer(Achronix)

我有CISSP认证,所以在这方面我可能会有些苛刻。显然,安全性是我们设计新板卡时讨论的重点。我昨天与我们的板卡供应商Bitware进行了电话会议,我们审查了正在进行的两个设计,安全性在讨论中多次出现,我们讨论了如何保护板卡的控制平面,防止任何形式的侧信道攻击,甚至是有人实际接触到服务器后部的恶意行为。是否可能通过物理接触注入漏洞也是一个考虑因素。

所以,是的,这确实是我们在设计这些产品时非常重视的内容。我们会考虑使用PCI Express总线进行DPU管理是否会引入安全漏洞,因为这可能会成为获取流量数据、提取数据和可能制定策略的途径。所有这些都需要进行远程管理,因此这是我们在设计过程中必须认真考虑的问题,甚至涉及到我们与一些合作伙伴合作的技术,用于保护芯片,以防有人试图通过测量热量、磁场和其他电气使用情况来提取芯片中的机密。在设计芯片时,我们确实会深入到这种层次。

Ron Renwick(Achronix)

Baron,我想听听你的看法。随着DPU的安全性不断提高,市场会增长还是减少?还是说这是必然的趋势?比如,五年后市场占有率不到10%,这是否假设了安全性被转移到DPU上,还是说这个增长对DPU市场的安全性有其他相关假设?

Baron Fung(Dell'Oro)

从云服务提供商的角度来看,安全性是一个重要关注点,因为他们向最终用户提供云服务器。如何确保这些不同用户之间以及云服务提供商的网络之间的隔离是很重要的。DPU可以充当这些不同用户之间的防火墙,也可以与云服务提供商的物理机器以及网络的其他部分隔离开来。这是一个好处。从更深层次来看,我们也看到一些安全供应商提供虚拟化的安全设备,如虚拟防火墙和其他网络安全应用,嵌入到服务器的NIC形态中,而不是使用传统的网络设备。然而,这可能需要一些时间。安全市场在物理设备中已经有一定的积累,用户可能需要一些时间来迁移和采纳虚拟化的网络安全设备和解决方案。

问题:一位专家提到,某些DPU内置了专用BMC。这是创建安全可信根和DPU启动时可信执行环境的一部分,随后将建立与主机(通过PCIe)和网络(以太网/InfiniBand端口)的不同信任级别。DPU可以启动自己的安全工作负载。

Patrick Kennedy(ServeTheHome.com)

实际上,这个话题很有意思。如果你拆解一些DPU,你会发现它们确实配备了ASPEED BMC。对于那些不太熟悉的人来说,ASPEED是一家生产绝大多数BMC的公司。BMC全称是Baseboard Management Controller(基板管理控制器)。你经常可以在服务器中看到BMC。如果你使用过Dell的iDRAC、HP的iLO或者AMI的MegaRAC,这些都是在行业标准服务器上使用的解决方案。Baseboard Management Controller的作用是提供对服务器的低级访问或管理功能,最初的想法是为了避免人们必须亲自走到数据中心的服务器前。

随着时间的推移,BMC也在不断演进,不同的厂商如HP和Dell有不同的实现方式。BMC可以开始创建一个全局的安全信任根。


---【本文完】---

近期受欢迎的文章:

  1. DPU/SmartNIC厂商及其产品线综述(2022年)

  2. DPFS: 基于DPU的文件系统虚拟化(论文+PPT)

  3. 解析DPU:提升数据中心效率、降低TCO

  4. 构建未来:AI驱动下的网络与存储技术革新

  5. DPU、IPU和SmartNIC节省数据中心功耗



更多交流,可添加本人微信

(请附姓名/单位/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存