查看原文
其他

Google 向生态系统开放可靠的低延迟硬件传输系统 Falcon

Google Cloud 谷歌开发者
2024-07-19

以下文章来源于谷歌云服务,作者 Google Cloud


作者: Dan Lenoski
职位: Google Cloud 工程副总裁
作者: Nandita Dukkipati
职位: Google Cloud 首席软件工程师


在 Google,我们长期使用以太网解决规模化问题,重构传输层,从而满足突发高带宽、高速率和低延迟的工作负载需求。例如对象存储这一工作负载长期以来需要这些网络属性,但随着大规模 AI/ML 训练和高性能计算 (HPC) 等新用例的涌现,此类需求再次大幅增长。过去,我们通过向计算机协会互联网工程任务组提供我们的构想,与业界公开分享我们在流量整形、拥塞控制、负载平衡等方面的经验。数年来,这些构想已在软件和少数硬件中得以实现。但展望未来,我们相信,借助专用且灵活的硬件辅助来实施这套方案,对整个行业更加有益。


为此,我们开发了 Falcon,其性能比纯软件传输更上一层楼。在 OCP 全球峰会上,我们通过开放计算项目 (Open Compute Project) 向生态系统开放 Falcon,该项目是利用 Google 的生产经验帮助业界实现以太网现代化的不二之选。


Falcon 作为硬件辅助传输层而设计,具有可靠性、高性能和低延迟的特点,而且充分利用了经过生产验证的技术,包括 Carousel、Snap、Swift、PLB 以及 CSIG。



Falcon 的分层参见下图,其中包括其相关功能。我们展示了 RDMA 和 NVM Express™ 上层协议 (ULP),不过 Falcon 可根据生态系统的需要扩展到其他 ULP。



Falcon 的底层使用三大关键技术,在有损的高带宽数据中心以太网络实现低延迟。细粒度硬件辅助往返时间 (RTT) 测量、基于硬件的流量整形、快速准确的数据包重传,并与支持多路径和 PSP 加密的 Falcon 连接相结合。在此基础上,Falcon 从一开始就被设计为一种多协议传输,能够支持性能要求和应用语义千差万别的上层协议。上层协议映射层不仅提供与 Infiniband Verbs RDMA 和 NVMe ULP 的开箱即用兼容性,而且包含了对超大规模应用至关重要的其他创新,例如灵活的排序语义和妥善的错误处理。最后一点是,硬件和软件协同设计,配合运行,帮助实现高信息传输速率、低延迟和高带宽等属性,同时保持灵活性,赋能可编程性和持续创新。


Falcon 反映出以太网继续在我们的行业中扮演中坚角色。Falcon 旨在实现超大规模的可预测高性能以及灵活性和可扩展性。我们期待与社区和行业合作伙伴合作,对以太网进行现代化改造,在 AI 驱动的未来里满足联网需求。我们相信,Falcon 将成为这一领域里正在推进的其他任务的重要补充。


行业视角



我们的行业合作伙伴对 Falcon 开发下一代以太网的前景充满期待。



"我们非常认可 Google 对 Falcon 做出的贡献,它与超以太网联盟的愿景一致,即推动以太网成为 AI 和高性能计算的最佳数据中心结构,我们也期待在这一重要领域继续推进行业创新。"


—— 超以太网联盟 (主要成员包括 AMD、Arista、Broadcom、Cisco、Eviden、Hewlett Packard Enterprise、Intel、Meta、Microsoft 和 Oracle) 主席

Jetz 博士


"Falcon 率先应用在英特尔 IPU E2000 系列产品中。作为以太网传输的第一个应用实例,这些 IPU 的价值得到了进一步提升,可大规模增加长尾端延迟和拥塞处理功能。英特尔是超以太网联盟的指导成员,该联盟致力于为高性能 AI 和高性能计算工作负载发展以太网。我们计划在未来的 IPU 和以太网产品中部署基于此类标准的增强功能。"


——英特尔高级副总裁兼网络与边缘事业部

总经理 Sachin Katti


 "我们很高兴看到针对 AI 和高性能计算等关键工作负载的高性能传输协议能够在标准以太网/IP 网络上运行,并且大规模实现高应用带宽。"


——Arista Networks 软件工程副总裁

 Hugh Holbrook


 "思科很高兴看到 Falcon 对开放计算项目的贡献。长期以来思科始终支持开放标准,坚信广泛的生态系统。现代数据中心网络特别是 Al/ML 的发展速度和规模前所未有,对行业发展而言既是挑战也是机遇。Falcon 解决了这些网络面临的诸多挑战,实现了网络的高效利用。"


——思科研究员 Ofer Iny


 "瞻博网络是开放生态系统的坚定支持者,因此我们很高兴看到 Falcon 向开放计算项目社区开放。Falcon 允许以太网作为数据中心网络的首选,为要求苛刻的工作负载带来高带宽、低尾延迟和拥塞缓解。如今,Falcon 为业界提供了一个成熟的解决方案,处理复杂的 AI/ML 工作负载。"


——瞻博网络首席技术官 Raj Yavatkar


 "Marvell 大力支持并致力于开放式以太网生态系统的发展,为 AI 等要求苛刻的新兴工作负载提供支持。我们赞赏 Falcon 对开放计算项目的贡献,欢迎 Google 与业界分享实践经验。"


——Marvel 高级副总裁兼网络交换事业部总经理 Nick Kucharewski






 点击屏末 |  | 即刻查看详细内容

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存