日调用量超三十万亿,腾讯开源百万级服务发现和治理中心北极星
从单体到微服务架构
任何修改都需要重新编译和部署整个系统,变更风险大,测试成本高,编译速度慢。
如果某个业务模块存在缺陷,也会影响其他业务模块,降低整个系统的可用性。
如果每个业务模块的请求量不均匀,无法针对某些热点模块进行水平扩展。
服务发现和治理技术
第一种方案以 Spring Cloud 为代表,在开发框架中集成了一系列服务发现和治理组件。虽然在虚拟机和容器环境中可以无差别地使用,但是需要在开发时引入多个零散的功能组件,缺少统一的数据面和控制面,不同的语言和框架没有无法统一管理。
第二种是 Kubernetes Service,将服务注册到内置的 etcd,采用域名解析插件实现服务发现,但有个缺点是无法提供服务治理功能。
第三种是以 Istio 为代表的服务网格,通过劫持业务请求的方式实现服务发现和治理。这种方案对开发代码的侵入性低,具备统一的数据面和控制面,但是需要部署流量代理进程,同时还会增加运维成本,存在较大的资源和性能损耗。
北极星是什么?
3.1 功能特性
注册发现:北极星的基础部分是一个大容量和高可用的服务注册中心,除了支持多种协议的服务注册和发现,还支持对注册的服务实例进行健康检查,避免主调方将请求发送给异常实例。在围绕服务构建的分布式应用架构中,服务注册和发现至关重要,可以提高应用的扩展能力,降低应用的迁移成本。
流量调度:北极星提供动态路由和负载均衡两种类型的流量调度功能。动态路由根据请求标签、实例标签和标签匹配规则,可以实现按地域就近、单元化隔离和金丝雀发布等多种路由策略。负载均衡将请求均衡地分配给不同的被调方实例,支持权重随机、最小负载和权重一致性 Hash 等多种均衡算法。
熔断降级:北极星支持实例、接口和服务三种粒度的熔断策略。如果被调方的部分实例发生熔断,将请求分配给其他实例。如果被调方的某个接口或者服务发生熔断,根据降级策略直接返回。网络抖动、机器故障和程序缺陷等因素都可能导致实例、接口或者服务出现异常,熔断降级可以提高业务的请求成功率。
访问控制:北极星提供鉴权和限流两种访问控制功能。被调方可以设置鉴权规则,允许哪些主调方访问自己,不允许哪些主调方访问自己。被调方也可以设置单机或者分布式限流规则,一方面防止突发流量压垮自己,导致自己完全不可用,一方面防止部分主调方的请求量过多,消耗大量资源,影响其他主调方。
服务网格:对于上述服务发现和治理功能,北极星提供统一的控制面和数据面。数据面功能采用配置化的实现方式,控制面可以下发服务数据和治理规则到数据面,动态调整数据面的执行策略。数据面支持 多语言 SDK 和 Sidecar 两种模式。
3.2 系统组件
核心组件:控制台、控制面和数据面
生态组件:用于框架、网关和 Kubernetes 对接
3.3 最佳实践
北极星和开源生态的关系
4.1 北极星和框架
4.2 北极星和网关
4.3 北极星和Kubernetes
Kubernetes 服务:通过 DNS 域名解析实现服务发现,采用 iptables 或者 IPVS 实现负载均衡。这种方案简单易用,但是缺少其他服务治理能力,大规模服务存在性能瓶颈。
网格:通过劫持业务请求实现服务发现和治理。这种方案功能全面,但是存在 CPU 和性能损耗,运维成本高。
北极星的开源计划
完善服务发现和治理功能
提供更多语言的数据面 SDK
优化数据面 Sidecar 的性能
加强北极星和相关开源组件的集成
完善项目文档
引入其他公司的开源爱好者