《Persistent Memory, CXL, and Memory Tiering》讲座问题解答
Source: SNIA CMSI, Your Questions Answered on Persistent Memory, CXL, and Memory Tiering, July 10, 2023
讲座PPT:Persistent Memory, CXL & Memory Tiering-Past , Present & Future
问:CXL可用的终端点(例如加速器)需要哪些功能或支持来支持内存池化?有参考资料吗?
答:有两个接口,一个用于主内存访问,一个用于对池化设备的管理。主内存接口是.mem,管理接口通过.io或通过边带接口进行。此外,需要实现强大的故障恢复机制,因为内存池化的影响范围更大。
问:如何识别CXL中的信息安全问题?
答:CXL在安全方面具有多个功能,联盟中对此进行了大量工作。有关详细信息,请参阅CXL规范或向我们提出更具体的问题。
问:如果系统(例如x86主机)想要立即部署CXL内存(Type 3),是否需要进行操作系统内核配置、BIO配置,以使硬件与VMWare(ESXi)配合运行?设置过程简单还是困难?
答:通常情况下,简单的CXL Type 3内存设备提供易失性内存,由预启动环境进行配置,并将其与其它主内存一起报告给操作系统。这样,支持CXL Type 3内存的平台可以在不进行任何额外设置的情况下使用它,并且可以运行不包含CXL支持的操作系统,该内存将显示为属于其它NUMA代码的内存。尽管如此,使用支持CXL的操作系统可以实现更复杂的管理、错误处理和更复杂的CXL设备。
问:关于“跳”长度(Hop)有一个问题,请你澄清一下?
答:在研讨会中,大约在第48分钟,提到了一个Hop为20纳秒,但这是不正确的。Hop通常被称为“大约100纳秒”。Microsoft Azure Pond论文对它进行了四种不同的量化,范围从85纳秒到280纳秒不等。
问:我们有没有对延迟的持续时间有任何想法?
答:CXL的术语中使用的是“Hops”(跳)。进入CXL的地址为一次跳,返回的数据为另一次跳。在一个架构中,它将是两倍,即四次跳。每次跳的延迟大约在100纳秒左右,尽管还有其它可接受的延迟。
问:对于内存语义SSD:在2LM设备供应商中似乎存在这样一种趋势,即假设主机系统能够提供遥测数据,供设备端分层机制决定应该提升和降级的数据。与此同时,软件供应商似乎专注于设备提供遥测数据,供主机端分层机制告诉设备将内存移动到何处。对于像内存语义SSD这样的2LM设备,您对分层应在何处以及如何执行有什么看法?
答:分层可以由主机和计算存储驱动器进行管理,计算存储驱动器可以具备集成的计算功能来管理本地分层,例如边缘应用。
问:关于虚拟机(VM)在分层中的性能:似乎你在比较两个VM与一个VM的性能。看起来每个单独的VM在分层系统上的性能比仅使用DRAM的VM要慢。你能解释一下为什么我们应该将2个VM与1个VM的性能进行比较吗?是否意味着我们本来需要将这两个VM运行在不同的NUMA节点上,现在它们在同一个NUMA节点上运行?
答:在这个案例中,降低TCO(总拥有成本)和增加内存容量,以及VM的综合性能与在DRAM上运行少量VM进行比较。在这个使用案例中,每个NUMA节点的DRAM为384GB,每个NUMA节点的Tier2内存为768GB,VM的内存为256GB。
在仅使用DRAM的情况下,如果我们要运行关键业务工作负载,例如具有VM内存=256GB的Oracle,在每个NUMA节点上只能运行1个VM(256GB),因为在仅使用DRAM的情况下不能过度配置内存,每个NUMA节点只有384GB。因此,在这种情况下,我们可以运行4个这样的VM(VM内存=256GB),并设置NUMA节点亲和性,就像我们在这个使用案例中所做的那样;或者,如果我们不进行NUMA节点亲和性设置,可能可以运行5个这样的VM,而不会完全占用服务器的RAM。请记住,在这个使用案例中,我们进行了NUMA节点亲和性设置,以消除任何跨NUMA节点的延迟。
现在加入Tier2内存,每个NUMA节点有384GB的DRAM和768GB的Tier2内存,因此理论上可以运行16-17个这样的VM(VM内存=256GB),因此我们能够增加资源最大化利用,运行更多的工作负载,增加事务等,从而降低TCO、增加容量和综合性能改进。
问:CXL发展非常迅速,过去两年里我们已经有了3个协议版本,作为CXL的新用户,立即采用CXL的前三个优势与再等待几年相比有什么优势?
答:所有版本的CXL都向后兼容。用户在使用今天的CXL设备时,不会遇到与新版本CXL不兼容的问题,尽管在硬件部署后,他们无法利用引入的任何新功能。
问:在使用Agilex FPGA作为加速器时的理想情况是什么?
答:CXL 3.0通过CXL交换架构支持多个加速器。这对于在异构计算加速器(包括FPGA)之间共享内存是有益的。