查看原文
其他

寻找DevOps新思路,云上效能还有哪些突破口?

CSDN 2022-04-06


从2006年至今,云计算产业发展已经经过15年,对于用户而言,其对于云的要求也越发的场景化与多样化。以往用户上云,疑问可能在于如何迁移,如何保障业务稳定,如何敏捷扩展?而如今,越来越多的企业已经在享受云计算发展红利,用户的疑惑点也就从如何上云到如何用好云悄然而变。

在云端,运维是一个绕不开的话题。尤其是DevOps这一技术已经成为近年来运维的主要趋势之一,越来越多的企业在拥抱和实践 DevOps 文化。更为关键的是,DevOps 与云浑然天成,那么对于企业用户而言,在当今环境下应该如何将充分发挥DevOps,又该如何进一步利用好云计算的优势呢?

12月10日,阿里云于2021云上架构与运维峰会上发布业界首部《《云上自动化运维白皮书》(简称“CloudOps白皮书”),并在其中提出了CloudOps成熟度模型。在此次大会上,阿里云弹性计算管控平台负责人田涛涛正式宣布了ECS自动化运维套件将会迎来全新升级,并发布了一系列新的能力。为进一步了解CloudOps技术价值,明确技术提升路径,CSDN专访田涛涛,聆听阿里云与CloudOps将如何搅动行业风云。


从用云到用好云,悄然而变的新格局


田涛涛认为,云平台的责任是构建坚实可靠的基础设施,以及围绕着技术设施构建全套的运维能力。企业需要更专注于产品研发、高效交付和变更,不需要成为基础设施专家。企业研发人员如果在基础设施和应用之间来回切换和适配,是巨大的成本和人力浪费。

DevOps 本质是为了协同公司内多个不同团队快速朝着同一个业务目标前进,云计算是服务于按需取用随取随用的业务场景,二者都在强调组织与业务的敏捷性。但另一个问题就出现了,是否将DevOps迁移到云上,就能够充分的发挥出二者的双重敏捷特质呢?

田涛涛给出了否定的答案。根据Puppt 2021年度的运维报告来看,只有20%的企业认为自己充分发挥了云端DevOps的潜力。因此,阿里云提出一种新思路—CloudOps(云上自动化运维)。

CloudOps 是传统 IT 运维和 DevOps 的延展,通过云原生架构实现运维的再进化,其能够充分帮助企业降低 IT 运维成本、提升交付速度和系统灵活敏捷度、增强系统可靠性,构建更加安全可信开放的业务平台。      

业界也需要有一套更为成熟和体系化的理念来对此进行评估,因此阿里云发布了业界首部《云上自动化运维白皮书》,定义了自动化能力、弹性能力、可靠性能力、安全合规能力及成本和资源量化等5个方面,来建设和评估企业的CloudOps能力。同时,白皮书根据使用者的上云状态、使用规模等,结合常用的成熟度模型将CloudOps成熟度模型分为了初级、中级、高级、标准化和智能化5个等级。

白皮书的价值在于能够帮助企业更好的定位自身技术状态,从而选择合适的路径与产品,提升使用云的能力,实现降本增效,实现最佳实践。

据悉,阿里云内部早已规划了诸多的产品与开发工具,而在今年内部按照客户价值与客户需求对相关技术重新进行定位,并结合云上CloudOps趋势重新规划,将全套运维套件与理念升级为CloudOps。

 

标尺出现,五大维度衡量CloudOps成熟度


在成熟度模型中,阿里云将智能化定义为CloudOps的最终的形态、最高等级;其次则是标准化。这与五大衡量维度中的自动化能力息息相关。

田涛涛认为,自动化能力实际上就是当前Everything asCode的趋势所追求的。代码化将通往标准化、自动化,最终才有可能智能化。云的OpenAPI与之完美匹配。田涛涛将当前常见的云自动化可以分为三类:

  • Infrastructure as Code:基础设施即代码的理念,希望通过构建可编程的基础设施,来实现资源的高效自动化配置。

  • Pipeline as Code: 通过脚本和引擎让原本独立运行于单个或者多个节点的任务连接起来,实现单个任务难以完成的复杂发布流程。

  • Policy as Code: 通过自动化代码来管理权限管控或者安全策略。

弹性能力是云计算带来的巨大技术红利,弹性能力意味着企业可以在秒级、分钟级快速响应资源创建或者释放,提升整体的交付速度,和资源利用率。

可靠性能力是云计算的天然优势之一,通过大规模数据中心、多数据中心技术,实现数据中心同城灾备,通过对硬件层的虚拟化,其能够来降低和规避物理硬件故障对客户的影响。云平台也会提供大量的自助服务来提升可观测性。

安全合规能力是云的招牌,也是云需要守护的底线。但是云端操作的高频性有大量自动化任务,操作来源和对象相对复杂,对操作审计和操作来源和报警的时效性要求较高;同时云端服务命令存在暴露在公网的风险,需要安全和网络规划能力;高频的可编程自动化运维需要有审计和问题追踪能力,避免越权和不容易被追踪的问题。

成本管理自然也不必多说,云服务相比IDC的最大特点之一是使用资源而非持有资产,为用户提供了大量新型的资源规划和付费模式。

自动化能力(Automation)、弹性(Elasticity)、可靠性(Reliabilty)、安全(Security)和成本管理(Cost)——阿里云将这套CloudOps成熟度模型,形象地称为CARES模型。云上自动化运维需要在五个方面不断优化与打磨,才能逐步靠近AIOps的终极目标。

 

优势结合,CloudOps 值得想象


当然,CloudOps并非简单的把DevOps上云,而是将DevOps和云有机结合,收获更大价值,产生“1+1>2”的效应。这不仅意味着更多用户能够更好地践行DevOps,提升云的使用效果,也意味着二者市场的相互叠加,更多的也能充分发挥出CloudOps的技术优势。

田涛涛认为,以往,用户无法发挥DevOps技术优势的原因主要有三:

第一,客户认知问题,基于原有的线下管理方法和管理工具,直接把工具放到云端执行,并不能发挥出云原生和云平台的能力优势;

第二,如今的运维和传统运维存在明显不同,传统运维一般操作的规模相对较小,管理的机房相对明确和有限;但是云运维可以快速通过资源的弹性能力轻松管理数百台甚至更大规模跨多个机房的服务器;上云后,随着弹性能力和应用复杂度的提升,资源会变得非常多,所以管理成本和管理效率就变成了一个巨大挑战;

第三,很多客户原生系统自动化操作偏少,当使用全自动化时,需要在编程习惯和编程模型方面改变,即改变使用云和使用服务器的方式,只有习惯改变了才能真正实现降本增效。

因此,今年阿里云首先将CloudOps这一理念提出,下一步会依托于这一形态来发展定义相关的产品。

田涛涛表示,今年的CloudOps白皮书和模型只是第一版,今后每年阿里云都会对产品、CloudOps模型和白皮书进行持续演进,方便客户更好地认知CloudOps,明晰自身发展与定位,更好的发挥云和DevOps优势。

田涛涛还表示,在CloudOps之前,云平台更多是以资源为中心,比如服务器、存储、计算等。而在CloudOps理念中,云产品会更多的基于客户视角打造,以应用为中心。

“不论是容器化、云原生还是平台本身,客户需要的从来都不是一个冷冰冰的资源,用户会更关心自己的应用。”田涛涛强调,“如何以应用的视角来满足客户在整个运维周期、研发周期、交付效率、组织文化方面的需求,如何帮客户降本增效,这都是阿里云接下来要做的事。”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存