凌云时刻
编者按:公共云和公有云的差别是什么?为什么企业使用公共云可以降低IT成本?自建机房和公共云机房哪个更安全?本文特邀阿里云神龙计算平台总经理蒋林泉、阿里云技术战略总监陈绪为大家答疑解惑。
什么是公共云?
就是将百万级别以上的企业用户在保证相互隔离的前提下,统一到同一个资源池,即“一朵云”,统一管控、调度、运维资源,让资源使用变得更加灵活、高效和稳定,提升业务的敏捷度和连续性,也必将大幅度降低企业在IT基础设施上的成本。
在我们看来,公共云就是面向未来的云计算。
从全世界范围的云计算实践来看,公共云已经深入人心,并切切实实在推动着各行业的数字化转型。公共云是一种商业,更是一种基础设施的资源。客户从公共云厂商购买的不是设备,不是机房,而是类似水、电、煤那样的IT基础能力,让更专业的公共云厂商来做基础计算的工作。从财务角度而言,自建IT和使用公共云计算,可以理解成CAPEX和OPEX的区别。
CAPEX全称为Capital Expenditure,即资本性支出,一般是指资金或固定资产、无形资产、递延资产的投入。OPEX全称为Operating Expense,指的是运营支出,一般是指企业的管理支出、办公室支出、员工工资支出和广告支出等日常开支。如果一次性自建IT和基础设施,就是CAPEX,涉及到一次性大规模开支;如果使用公共云服务,就是OPEX,每年固定的租用支出。从企业经营的角度看来,CAPEX一次性支出大,不确定性强,而且由于IT设施的生命周期,过3-5年还得重新来下一轮,技术的研发也要高额投入,明显不如OPEX划算。后者支出稳定,按需付费,不浪费资源。所以CFO更倾向于将CAPEX变为OPEX,改善企业的现金流,提升企业发展健康度和抗风险能力,从而获得华尔街分析师和投资机构的青睐。这种逻辑无论针对中小客户还是头部客户,都是成立的。其本质是将CAPEX的压力和风险转嫁给公共云服务商,对于客户自己而言,财务上就是最优的配置,而风险在该服务商体量是否足够大,是否能够持续发展,提供稳定可靠大规模的服务。所以很多客户更倾向于选择头部公共云服务商,也基于这个考虑。对于云客户来讲,更关注的是云服务的不间断性,而公共云厂商提供的就是永不停机的计算服务,这是自建机房无法达到的:在省钱的基础上保证服务的永续。换句话说,公共云计算永不停机,让客户降低了业务中断的损失,也是降低了成本。购买商品有大客户和零售客户之分。将一块钱存入银行,和将一个亿存入银行,获得的利率是不同的,因为后者是大客户,有了议价能力。这就是货币基金的由来,货币基金公司将大家的1块、100块小额资金汇集在一起,和银行谈判,获得更高的利率,同时兼顾随时可以取出的活期特性。要采购某件商品,1件和100万件是不同的。购买1块硬盘和100万块硬盘,单价是完全不同的。所以当客户使用公共云资源的时候,分摊到每一份资源上的成本会急剧降低,这和团购是一样的道理。某些公司的单个业务所用的硬件资源,如果单独采购的话,由于采购量小,很可能无法获得最优价格,而全面上云之后,使用的硬件资源都会是最优价格。这也就是云厂商逐年降价,将红利持续返还给客户的秘密所在。狭义弹性:计算力和业务曲线弹性伸缩包裹极大提升资源利用率现代企业对计算力的需求有两个趋势,一个是长期的向上增长,另一个是突然的爆发。在过去20年中,电商出身的阿里云和AWS是典型的云计算厂商代表,更能深切感受到这一点。以前没有云的时候,公司技术架构部只能自建IT,这就需要良好的规划,如在前一年就要做好后一年的IT规划,必须有前瞻性,能满足业务的需求,又不能过于超前,让技术设施闲置。很多企业的技术部门经历的实际情况是,为了满足业务的高峰需求,必须多买设备,即使这些设备很多时候只能闲置;同时,业务的增长速度和时点往往会超过所有人的估计,很多时候会击穿资源的上限,造成服务中断或者延误。上云之后,由于公共云的规模更大,池子更大,弹性能力会更多,余量也更多。计算力的曲线和业务的曲线永远是一对矛盾体,企业当然希望两者之间的差别越小越好,但实际的生产中要么发现CPU使用率极低,要么被打爆。原因来自两方面:业务的增长很多时候是无法预测的,业务的需求并不是线性的,很多时候会因为促销或者过节大幅度波动。业务的发展不能被IT设施的规划所限制,更不能成为IT能力匮乏的牺牲品。IT的预算应该能尽量准确地满足业务需求,这就是公共云计算产生的根源之一。自建IT,不引入云计算,面临的问题是随着规模扩大,边际成本很难降低,而容灾成本急剧提升。在使用公共云的情况下,你可以获得由于巨大规模带来的直接红利,使得IT的成本可控,同时可以弹性使用资源。大白话就是,平均使用成本保持不变,同时不为用不上的资源付费。理想中的弹性,是指所谓召之即来、挥之即去的资源。没有闲置资源,这就是资源供应链的最高境界。广义弹性:云规模预铺意味着低边际线性扩容,容灾成本业界很容易被忽略的一个概念是广义的弹性,指的是云规模的预铺设带来的普惠和低边际成本扩容。当一个新客户拥抱公共云的时候,无论是大客户还是小客户,享受的基础设施是相同的,这也是普惠技术的概念。
想想一个客户,不用大规模基础设施投资,马上就可以享受两地三中心、云灾备、高弹性等昔日银行、电信等大客户才能花费巨量投资才可能享受到的技术能力,正所谓“昔日王谢堂前燕,飞入寻常百姓家”。以前,当自建IT设施时,由于机房、交换机、带宽不够带来的各式各样问题,都不再是客户自己要关心的问题,而是成为公共云厂商的基础能力。公共云要保障的是客户的业务连续性。批次运维:硬件问题,机房网络服务器过保,云轻松渡劫很多人纠结于公共云厂商的技术能力,到底是多少IOPS,多少QPS。固然,基础的技术能力和指标非常重要,但是对云平台的管控和规模化运营能力更是重中之重。
业界常见硬件宕机率在万分之三。众所周知,大规模集群中,物理硬件的损坏是不可避免的。公共云的核心能力就是客户感知不到硬件的损坏。对于长期使用公共云的客户而言,是不需要关注硬件损坏的,因为资源永远可用,也不需要自己做迁移。但做过公共云的同学都知道,硬件会坏,而且几乎每时每刻都会损坏。之所以看不到硬件的损坏,完全是因为公共云厂商提供的服务和资源。公共云厂商通过技术创新和研发,将宕机率降到万分之0.x。此外,基于AIOps的概念,公共云厂商可以基于智能预测和运维,对机器的损坏进行预警,比如接近生命周期的机器就要多监控和关注,一旦发现任何迹象,后台就会将负载迁移到新的机器上去。当我们仔细观察硬件损耗带来的问题时,还能看到批量故障。各种硬件都会有故障:内存有批量问题,主板有批量问题,磁盘有批量问题,而上线后整体更换的成本又是极高的。由于业界能提供这些核心部件的供应商并不多,所以一旦出现问题,会影响几乎所有自建IT和云厂商。自建IT一般会直接受到影响,所以要承担停止业务运行的成本。云厂商的核心能力是在硬件和上面的业务层之间构建一个全托管的服务层,所以只要该服务层做得足够好,客户几乎是无感的。公共云硬件的时间轴上,其故障率遵循浴盆曲线,就是两头高,中间低,最开始时故障率高,接下来是稳定期,然后故障率开始提升。经过了3-5年的生命周期后,旧有硬件的稳定性下降,故障率提升,导致性能竞争力下降,对业务连续性的威胁会持续放大,必须更换新的硬件。长期使用公共云服务的客户,实际使用的硬件肯定会变,而且会更新为新的硬件。最重要的是, 此过程客户是无感的,也即是说业务连续性得到保障。在没有增加开支的情况下,让客户享受新一代硬件的新特性,这也是公共云带来的硬件红利。在没有增加开支的情况下,让客户享受新一代软件的新特性,这也是公共云带来的软件红利。
阿里云的创始人王坚博士曾给阿里云公共云定过一个边界:飞天是自主研发、通用、大规模、分布式计算系统。云计算是一个技术密集型的产业,很大一部分开支在高水平的技术工程人员上。要完成全系统的研发,不仅要长时间的积累,而且要维持大批量的高水平工程师和架构师。长期和大规模都是需要时间积累。以阿里云为例,业务部门成立于2009年9月,很多技术甚至可以追溯到1999年阿里巴巴成立之初,所有的技术和经验都积累和沉淀到今天,这是普通IT公司无法想象的一笔巨额财富。要提供高质量的计算服务,必须要维持高的研发人员开销。在公共云上,这些成本被摊销到每一台机器,这样随着规模的扩大,单位成本会越来越低。也就是说,即使技术水平相近,在规模有代差的情况下,规模大的优势会非常明显,甚至无法逾越。此外,要享受高质量的计算服务,要么自建要么使用公共云。自建的话,一是成本压力,二是人员素质的压力。自建的IT,没有办法摊销高素质人员的成本,会使得单位成本很高;如果要降低成本,就只能减少高素质人员的数量,这样会带来技术演进的不确定性。既要少花钱,又要享受新时代最先进的生产力,怎么办?答案是公共云。公共云带来的成本优势,既是时代的红利,又是普惠的技术,还是一种技术公益,能大、中、小企业站在同一个起跑线上竞争,这是给创新者的福利。1. 从英文翻译来说,两者都是public cloud。但是公有云强调的是客户能买到虚拟的计算、存储、网络,而公共云强调的是public infrastructure,即公共基础设施,让人类象使用自来水一样使用资源。所以看似相同,本质还是不同的,公共云的提法更加贴切。2. 公共云的资源是由公共云厂商提供和拥有的,并非客户所有,客户是使用方。公共云更强调对基础平台的资源化和管道化,公有云更强调所有权,从这个意义上来看,公共云也更加合适。阿里云智能总裁张建锋提出的“被集成”概念,正是基于大家使用公共资源的角度而提出。3. 公共基础设施还带有技术公益的内涵,正如电信运营商在偏远山区建立基站,由于用户少和运营费用高,从成本上并不划算,但是为了让当地的居民用上电话和上网,也是需要做的事情。云计算面临的网络安全形势和传统的IT安全相比,同样严峻。那么自建机房和公共云机房哪里更安全?我们引用王坚博士举过的一个例子:如果你有100元的钞票,是放到银行更安全还是放在你家里的枕头下面更安全?答案不言而喻,大家都用行动给出了回答:放到银行。不仅保存更安全,而且电子交易更便捷,同时可追溯性让交易更安全。长期而言,公共云的安全不仅会成为一种资源,成为一种服务,更会成为一种保险。付出一定的保费,厂商为你提供防护,当业务到攻击的时候,厂商为你抵御攻击,让业务持续提供。(完)