案例| 腾讯WeMake工业互联网平台的边缘容器化实践:打造更高效的工业互联网
腾讯WeMake工业互联网平台基于强大的数据、算力、算法与连接能力,并叠加上大量的工业Know-how, 机理模型与OT技术,搭建了一套强大的工业互联网平台架构。应用和数据是企业的核心资源,如何保证应用和数据的可靠性、安全性是腾讯WeMake最关心的问题之一。出于安全考虑,多数用户强调“数据落本地”,单靠数据中心难以满足其需求。此外,随着物联网技术的发展,平台中大量的智能终端位于网络边缘,集中计算模式不能满足所有应用场景。基于以上问题,腾讯WeMake工业互联网平台选用了边缘容器打造了一套安全高效的工业互联网平台。
01
什么是边缘计算
边缘计算示意图
02
腾讯WeMake工业互联网平台如何使用TKE Edge边缘容器服务?
什么是TKE Edge?
TKE Edge是腾讯自研的云原生边缘计算平台,它将 Kubernetes 强大的容器管理能力扩展到边缘计算场景中,针对边缘计算场景中常见的技术挑战提供了解决方案,如:单集群节点跨地域、云边网络不可靠、边缘节点位于NAT网络等。这些能力可以让应用很容易地部署到边缘计算节点上,并且可靠地运行。TKE Edge的核心能力包括:
支持原生Kubernetes:
无侵入扩展原生Kubernetes,添加边缘计算相关组件。支持Kubernetes原生工作负载(Deployment, Statefulset, Daemenest等);
边缘自治:
稳定的边缘端服务。当边端节点与云端网络不稳定或者断连时,边缘节点依旧可以正常运行,不影响已经部署的边缘服务;
分布式健康检查:
增强边缘节点稳定性。根据自定分组或网络拓扑对边缘节点进行分组,由组内边缘节点进行健康检查及状态投票;
服务访问控制:
提供基于边缘区域的服务访问控制,使得各个容器服务间的请求在本机房或本地域内部即可完成(闭环),避免了服务跨地域访问;
云边隧道:
支持自建隧道(目前支持TCP, HTTP and HTTPS)打通不同网络环境下的云边连接问题,实现对无公网IP边缘节点的统一操作和维护。
TKE Edge架构图
TKE Edge的核心组件已开源到SuperEdge项目:
https://github.com/superedge/superedge
点击链接了解项目详情 👇
腾讯WeMake使用TKE Edge的实践
由于技术架构的天然吻合,腾讯WeMake工业互联网平台在TKE Edge项目创立之初,就选择了其作为边缘管控平台。通过使用TKE Edge,将平台数据落到客户机房,就近落地,实现了将客户数据本地化落地和低时延等需求。腾讯WeMake工业互联网平台的Master组件部署在云端,在客户机房只需要部署少量的边缘组件。
在传统的方式下,对私有化产品进行升级时首先需要获得客户授权,运维人员需要建立VPN连接,SSH过去,然后下载镜像,最后再部署验证,步骤繁多且周期较长。而在使用TKE Edge后,客户授权的研发人员只需在腾讯云Master端页面下拉选择升级一个版本号,既可自动对Kubernetes集群和WeMake管理组件进行滚动升级,极大地提高了运维效率,为以制造业为例的企业实现了降本增效,达到了节省成本的目的。
腾讯WeMake工业互联网平台架构图
TKE Edge提供了一种无入侵的方式,给原生Kubernetes集群“赋予”边缘能力。在工业云场景下:
云端跟边缘端均是通过公网连接,网络质量不可控,云边弱网或断网是一种常态而不是异常,需要稳定的支持。因此,边缘节点自治是边缘计算的一个核心能力。TKE Edge的lite-apiserver是运行在边缘节点的网关,节点上所有的Kubernetes组件和业务容器都通过lite-apiserver访问云端的kube-apiserver,由lite-apiserver对访问结果进行高效缓存。在云边断连的情况下,利用这些缓存对Kubernetes组件和业务容器提供服务,达到边缘自治的目的。这个特性大大降低了WeMake工业互联网平台对稳定网络质量的依赖,给业务的开发和部署带来极大的便利。
在原生Kubernetes集群中,如果节点与master组件长时间断连,master组件会对该节点上的业务容器进行驱逐。但在边缘计算场景中,边缘节点与云端断连是一种比较普遍的现象,原有的Kubernetes机制会导致业务容器频繁重启和迁移,影响业务的用户体验。TKE Edge业内首创edge-health分布式节点健康检查机制,同一个区域内的节点互相探测打分来判断节点是否存活,以更加准确的判断节点运行状态。如果边缘节点与云端断连,但edge-health判断该节点运行正常,运行中的业务容器则不会被驱逐,也没有新的业务容器调度到该节点上。有了这种分布式节点健康检查机制,WeMake的业务容器不会因为节点的网络问题频繁迁移,能够提供长期稳定的服务。
在云边协同的网络环境下,云端的Kubernetes Master组件往往无法直接访问边缘节点。TKE Edge提供了Tunnel打通了云-边通道,给边缘容器集群提供Kubernetes原生的运维和管理能力(kubectl logs, kubectl exec, 监控)。WeMake在开发、运维过程中,都可以通过Tunnel在云端查看业务容器日志、获取监控Metric等。
03
腾讯WeMake工业互联网平台如何使用TCR实现容器镜像加速分发?
什么是容器镜像服务TCR?
TCR是腾讯云面向企业级客户推出的独享云原生制品托管服务,兼容容器镜像及Helm Chart,提供全球多地域极速同步能力,同时基于自研 P2P 共享和镜像按需挂载技术,为大规模容器集群提供了镜像极速下载,海量容器秒级启动能力,保障企业业务快速稳定迭代。
边缘场景下的镜像加速
在WeMake工业互联网平台的边缘计算场景下,大量的容器副本和超GB级别的容器需要被分发到不同区域的边缘节点当中,会耗费大量的时间及公网的流量。为了提升在边缘计算场景下的容器镜像发布的效率、缩减应用启动中镜像下载的时间,腾讯WeMake工业互联网平台使用了TKE Edge及企业级镜像仓库服务TCR联合提供的 P2P 镜像加速能力。该方案于每个边缘站点创建了一个P2P网络,边缘站点只需从云端镜像仓库拉取一份镜像,由Proxy和Tracker分别作为该P2P网络的种子节点和下载管控,并在每个边缘节点部署Agent作为P2P网络中的Peer来实现边缘站点内的镜像分发。通过这个方式,镜像下载的公网流量缩减为原来的1/N,镜像的下载耗时缩短50%。
边缘站点示意图
04
结语
往期精选推荐