查看原文
其他

构建云边端一体的分布式云架构,软硬结合驱动边缘计算创新场景

HFS 百度智能云技术站
2024-09-10
本文整理自 2022 年 12 月的智算峰会 · 智算技术分论坛上的同名主题分享。
边缘计算正在向分布式云演进,百度智能云如何构建云边端一体的分布式云架构,其中的关键路径、技术挑战、场景实践都有哪些?

边缘计算是一种能够把计算、存储、网络等云计算能力从中心下沉到数据生产消费所在物理位置的云服务。
针对不同客户业务覆盖和就近接入的诉求,基于不同的物理位置,百度智能云提供了完整的边缘计算服务,包括全球范围城域覆盖的边缘计算节点 BEC、本地机房覆盖的本地计算集群 LCC、园区现场的边缘服务器 ECS 等。

随着与客户一起对边缘场景不断持续深入的探索,我们发现了以下 4 点变化:
第一是边缘和中心一体融合化的诉求越来越强烈。客户除了在使用边缘节点以外,也希望融合使用中心云的资源和边缘节点,构建一个更加一体化的业务架构;‍
第二场景下沉渗透的趋势越来越明显。随着各种场景的丰富,从最早的只依赖 IaaS 基础设施逐步演进到依赖更多的边缘 PaaS 中间件的能力下沉;‍
第三就是资源碎片化的趋势越来越显著。我们的客户通常会管理几十个甚至上百个不一样的物理位置的计算资源。如何去管理这些碎片化的资源,就需要一套有效的运维手段;‍
最后就是需求的多样性。我们需要能够针对不同的客户场景,灵活的提供不一样的算力资源与网络能力。
正是这些变化推动了边缘计算向分布式云的升级。‍‍‍‍
基于对趋势的判断,我们构建了一套分布式云的基础架构,用来支撑边缘计算向云边端一体的分布式云演进。
在这个架构中,我们依托于同源同栈的分布式云操作系统,构建了能够结合中心云、边缘计算节点 BEC、本地计算集群 LCC、边缘服务器 ECS 等进行融合组网、统一纳管的分布式云基础设施。
为了应对分布式云资源广域覆盖与资源碎片化的特点,我们基于中心云的基础设施架构演进了超融合小型化架构来支撑边缘计算节点 BEC 和本地计算集群 LCC 的下沉。
同时结合分布式云基础设施建设经验,构建了一套云原生分布式云容器引擎 CCE@Edge,来帮助客户更好的管理分布式云的资源。
为了实现云边端一体的分布式云架构的演进,这其中涉及到四大关键路径:
  • 首先是一云多芯满足分布式云特色化场景与差异化需求;‍
  • 其二是同源同栈实现包含中心云在内的分布式云体验和能力的一致性和先进性;‍
  • 其三是超融合化来兼顾分布式云规模、弹性、成本的诉求;‍
  • 最后通过是云原生化来帮助客户去更好的管理分布式云广域覆盖的算力网络资源。
首先来说一下一云多芯。在一云多芯方面,以云游戏实时渲染场景为例,我们通过就近部署专有硬件来支撑客户高质量实时渲染场景,实现 20 毫秒的端到端延迟。
在这个场景之下,边缘节点 BEC 引入了百度自研磐玉蜂巢 ARM 阵列服务器,结合轻量级容器化技术能够成倍的提升云游戏实力的部署密度,为客户提供高性价比的手机云游戏实例。
基于 PC-FARM 服务器,结合硬件虚拟化技术、从内核到虚拟化进行端到端的性能调优,能够使得在 Windows 云游戏场景下用户既能享受云化的基础设施的便利性,也能够最大程度的释放云渲染的计算能力。
基于 ARM GPU Server 硬件,我们通过自研 GPU 内核隔离技术,实现 GPU 资源按需分配。同时在网络层面,通过多种多样的软硬件结合的能力实现了经典网络和虚拟网络下的租户隔离和融合互通。这使得各种类型的云游戏实例能够和X86 云主机协同工作,帮助客户更便捷有效的管理异构硬件与上层业务。
接下来是我们通过同源同栈的分布式云操作系统,构建了一套统一的分布式云基础设施底座。其主要的挑战在于我们如何通过同一套虚拟化架构从管理一个集中式 Region 拓展为管理一套广域的分布式云资源。最简单的做法其实是我们为每一个边缘计算节点都部署一套完整的虚拟化控制面,但是这种做法会大幅提高整个广域分布的边缘计算集群的维护成本。
因此,我们创造性的通过云边通道协调器和面向最终一致性的控制面语义,实现分布式云操作系统控制面与数据面的云边分离,最终实现全面同构的透明化下沉。
随着边缘应用场景的丰富,也带来了更多中间件场景的诉求来满足本地数据存储与处理、本地高性能缓存、本地增量训练等诸多需求。
因此我们也同样基于云边通道协调器实现了中间件的透明下沉,使得客户能够使用统一的控制台来管理他的中心云与边缘云的中间件资源,同时也能够享受中心云成熟的中间件自动化运维能力。在此我也很高兴地宣布,云数据库 RDS、 SCS 的分布式云版本都已经发布。

说完了同源同栈的基础设施与中间件。我们依然没有解决一个问题,即如何将边缘云与中心云形成一个有机的整体。我们的观点是只有真的同源同栈的技术架构才能帮助我们更好地构建体验一致的分布式云,产品之间才可以更加无缝的集成。
因此百度智能云通过统一的云智能网 CSN ,基于百度百 T 公网骨干资源来实现边缘节点与中心节点的大带宽与低延时传输,并且通过云智能网 CSN 的路由自动学习和多链路选路优化能力,能够更便捷高效的将我们的边缘网络与中心网络互联互通。
我们基于百度百 T 级的骨干公网资源与云智能网 CSN 帮助客户建设了从研发到量产全环节端到端的车联网基础设施。
以现在最火热的自动驾驶赛道而言,车辆路测数据的收集是一个业界难题。很多自动驾驶客户,目前主流使用的方案是基于从全国各地的车载设备上拆卸硬盘邮寄回中心机房的方式去进行数据上云。这种方式虽然具备成本低廉,数据传输量大的特点,但是通常在时效性上就不是那么的尽如人意了。
因此,我们通过释放百度骨干网资源帮助我们的客户,让车载数据通过城域光纤接入遍布全国的骨干 PoP 点资源,实现低成本、高时效的自驾数据汇聚上云。同时针对量产车场景,我们联合客户针对边缘就近接入的特点在协议层上与客户进行端到端的优化,实现了车辆数据上报与指令下发的就近下沉,帮助智能网联车终端客户取得更好的智能化体验。
说完同源同栈,我们也要清醒地认识到分布式云的架构相比与中心云规模化的挑战而言,又面临着超融合、小型化的挑战。那么我们如何将一套同源同栈的架构使其能够兼顾规模化、小型化和灵活弹性的需要呢?
我们给出的答案是实现全面云原生化的基础设施底座,使得百度智能云的边缘计算基础设施在成本上能够大幅的优于竞品。除了部署架构的云原生化外我们还积极的引入了软硬结合的技术手段,基于智能网卡硬件卸载,构建超融合网关,大幅提升了网关规模化部署与服务承载能力。
具体而言,我们通过智能网卡 hairpin offload 的技术实现了 Zero CPU Cycles 的集中式超融合网关,这意味着我们无须使用大量的计算资源,仅需要使用一张智能网卡就能够满足 200 GB、3000W PPS 的吞吐能力。
这样的集中式网关同样落地于百度智能云的边缘计算的公网网关、DDoS 分流器、专线网关等多个场景,使得我们能够在多节点开箱即用的为客户提供一致的服务能力。
介绍完了在云计算基础设施资源层的挑战,最后我想再介绍一下百度智能云的分布式云在应用编排层的一些技术工作。
首先是我们认为利用云原生技术进行业务架构分布式转型是目前的主流的趋势。分布式云广域的覆盖和业务单元的碎片化需要相对应的部署和管理手段,这个就会对传统的运维和管理系统提出非常高的要求和挑战。
因此我们基于分布式云操作系统的实践经验,依托云原生架构,开放了云边自治、边缘容器网络、单元化部署、流量拓扑感知四大核心能力,帮助客户在他的基础设施之上,构建一个跨地域、跨算力、跨供应商的云边一体化容器引擎。
在此基础之上,我们认为 Serverless 容器引擎具备的无需管理云主机的这项优势,使其正在成为分布式云部署的新范式。
因此在边缘 Serverless 容器引擎上,我们基于虚拟节点技术构建了分布式云的无服务器节点,同时支持无缝接入客户自建 Kubernetes 集群。通过分布式云无服务器节点,客户无需关心云边协同等复杂的架构问题,而全部交由基础设施解决,基于单一容器集群即可轻松管理广域的分布式云节点资源。
同时,我们也将分布式云操作系统一云多芯的特点带到了我们的 Serverless 架构中。在计算层面,使得我们的容器实例支持 GPU、TPU、VPU 等多种异构算力。在存储层面,能够无缝的使用我们的分布式存储,如云磁盘对象存储等。在网络层面,和我们的云主机能够基于虚拟网络 VPC 统一管理,因而也具备通过 CSN 实现云边边互联的,互联互通需求。
同时我们也在积极探索与上层业务的融合抽象,实现业务部署从 Serverless 继续迈向 Locationless 架构,帮助我们的客户更便捷的实现边缘资源管理。
- - - - - - - - - - END - - - - - - - - - - 
点击阅读原文,了解边缘计算更多内容

传送门

  1. 云原生 AI 的资源调度和 AI 工作流引擎设计分享
  2. AI 训练加速原理解析与工程实践分享
  3. AI 推理加速原理解析与工程实践分享
  4. 双引擎 GPU 容器虚拟化,用户态和内核态的技术解析和实践分享
  5. 面向高性能计算场景的存储系统解决方案
  6. AI 应用的全流程存储加速方案技术解析和实践分享
  7. Redis 持久化机制演进与百度智能云的实践
  8. 流日志轻松应对“10亿级别IP对”复杂流量场景,实现超大规模混合云网络流量可视化
    ‍‍
继续滑动看下一个
百度智能云技术站
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存