揭秘 AWS 基础架构底层运维和构建之道!
在去年的AWS re:Invent大会上,AWS全球基础架构和客户支持资深副总裁Peter DeSantis在主题演讲中分享了AWS基础网络支撑高性能计算,以及让传统计算密集型应用更好地运用云共享性特性的秘诀;今年,他从运营的角度,延伸至半导体和数据中心可持续发展等领域,揭秘AWS在基础架构底层运维和构建上的一些思考。
他的讲话有哪些值得关注的地方?我们来做一下深度解读。
稳定运营,如何做到?
Everything fails, all the time.
——Amazon CTO Werner Vogels
正如Werner所说,构建云的时候,任何环节都可能出现问题,不出问题几乎不可能。
2018年,AWS在re:Invent上曾公布过过一个数据:与AWS规模最接近的另一家服务商,云服务的宕机时间是AWS的7倍多。当时就有人关注,AWS是如何做到支撑起巨大规模的云服务的同时,保持稳定、可靠的运营?Peter在今年的演讲中就为大家进行了揭秘。
总的来说,从细节着手,是AWS支撑如此大规模且复杂的基础架构,同时保持运营稳定可靠的秘诀。
供电
具体来讲,首先是从供电层面保证稳定性。对于任何基础设施,供电都是关键所在,包括数据中心。一般从电网拿到电后,AWS经过Switch Gear配电控制系统供应电力,其中的UPS备用电源系统可以在电网供电出现问题时马上接管电源,保证服务不中断,同时启动发电机组,为电池持续充电,直到电力恢复。
Peter解释道,一个完整的配电控制系统,一般包括三个关键组件部分:发电机、配电开关控制系统与UPS系统。
发电机组相对来说是最简单的,AWS的基本逻辑就是加一组冗余发电机,发电机坏掉之后可以用另一台替换。
配电开关系统相对复杂,有一个专门名词叫做e-house,是用低压或中压的控制开关和继电器来控制线路切断。但是传统的开关控制系统内嵌的软件是预先设定无法改变的,很多功能设计并不适合AWS使用。为了适应AWS的需求,他们自己做了一套配电开关系统,保证在发生事故时,AWS可以最快的速度和极简的流程处理故障。
UPS系统更加复杂,因为传统的UPS控制产品功能复杂,但并不一定是AWS需要的,且UPS的铅酸电池质量重,危险性高,非常不利于数据中心的安全。AWS的做法是把铅酸电池做成多个小的电池,与机架的的冗余电池搭配使用,用自己开发的控制系统来掌控UPS,从而降低了复杂性和铅酸电池的破坏力。
任何环节都可能会坏,减小坏的环节对客户的影响,是AWS维护供电稳定的基本思路。
数据中心
接下来回到数据中心本身。2001年,当AWS还不存在的时候,Amazon run在西雅图就已经有了数据中心。在这个海啸和地震频发的地方,AWS积累了一些数据中心建设的经验。
比如不能把所有设备都放在一个数据中心,数据中心之间要有适当的距离,以减少灾害带来的破坏。
两个数据中心的延迟至少有70毫秒,这是物理距离决定的,无法改变。但减小延迟带来的影响,AWS在综合考虑了火灾、雷电、龙卷风、海啸、地震等等所有因素的破坏半径之后,发现了数据中心之间的最优距离是数十英里,并在这个距离的基础上保证数据中心的延迟在一毫秒之内,最大程度保证数据中心之间的独立性。
与其他云服务商数据部署的理念有所不同,AWS会细分区域 和 可用区(Available Zone)的区别:
1) 远距离的可用区设置,可以降低自然灾难(火灾,水灾…)带来的业务中断风险;
2) 用户选择最近站点接入以低延迟访问AWS云资源;
3) AWS分别管理每个区域中的运维,每个AZ都有独立的网络和连接,将故障分割。
此外,AWS数据中心的设计逻辑,重点是要去除人的干扰。人可以成就一切,也可以破坏一切。因此,要保证每个区域之间的运营完全独立,互不干扰,当客户在全球部署跨多个区域,就可以减小破坏带来的影响。
目前,AMS有遍及24 个地理区域的77个可用区(AZ),并已公布计划在澳大利亚、印度、印度尼西亚、日本、西班牙和瑞士新建6个AWS区域、18个可用区。
半导体
AWS有自己的半导体,以更好地适应规模化运营的独特需求。
2015年,以色列半导体公司Annapurnalabs被AWS收购后,就成为后者自己的半导体供应者,从最早的Nitro 1,到2021年将要发布的Nitro 4,都是AWS云服务的硬件支撑。
AWS 云平台可以通过 AWS Nitro 控制器向 Amazon EC2 添加网络,存储和安全资源,比如在EC2 Mac 实例中,AWS在Mini 上安装了 Nitro Controller,没有 Hypervisor 的 Nitro Controller 可以安全快速地连接到 Mac Mini。通过Nitro接口,可以连接到EC2和EBS等服务。据悉,Mac Mini 现在可以使用任何本地 AWS 服务。
AWS Nitro 芯片发展迅速,最新版本 version 4为新的 C6gn 实例提供了动力。
此外,AWS Inferentia是AWS在云上最高性价比专门做推理的芯片,搭配Nitro,可以快速地扩展到EC2 实例。在机器学习领域,AWS透露今年下半年还会正式推出另一个芯片产品——AWS Trainium,届时将给开发者带来怎样的能力,我们可以期待一下。
绿色节能
去年,AWS曾正式宣布过要在2030年完成一个目标——让整个Amazon所使用的数据中心100%使用再生能源。而现在,AWS把实现这个目标的时间提早了很多5年,争取在2025 年 100 % 利用可再生能源。今年,Peter特地汇报了这个目标目前的一些进展。
451 Research 的调查研究结果显示,AWS 的基础设施的能源效率是被调查的美国企业数据中心中位数的 3.6 倍。这种优势的三分之二以上归因于更节能的服务器数量和更高的服务器利用率。
AWS通过多种措施实现绿色节能:
提高用水效率,减少用于冷却数据中心的饮用水的使用。AWS 通过评估每个 AWS 区域的气候模式、当地水资源管理和可用性以及保护饮用水水源的机会来制定用水战略。
2020 年 5 月,亚马逊宣布了五个新的公用事业规模的太阳能项目,为中国、澳大利亚和美国的全球业务提供电力,一共增加 615 MW 再生能源发电能力,预计每年发电 120 万 MW。
今年 3 月,亚马逊宣布在澳大利亚、西班牙、瑞典和美国投资四个新的可再生能源项目,这些项目预计每年将产生大约 840,000 MWh 的能源和额外产生近 300 MW 的可再生能源发电能力。
在数据中心建设的水泥生产过程中,AWS 在混凝土生产中添加 CO2 和使用补充水泥材料来进一步减少 CO2 的排放。
2020 年,亚马逊对可再生能源的总投资项目已达到 35 个,装机容量超过 4 GW,这也是目前世界上单一企业在1年内对可再生能源的最大的一笔投资。这些新项目将使亚马逊所拥有的可再生能源的的总装机容量在 2020 年达到 6.5 GW,并成为有史以来最大的企业可再生能源采购商。
以上为Peter DeSantis今年对AWS基础架构趋势深度剖析的全部内容,你对哪部分最感兴趣?欢迎留言讨论~
☞华为自研设备明年都可升级鸿蒙系统;中芯国际联合CEO提出辞呈;Git 2.30 RC版本发布|极客头条
☞HarmonyOS 手机应用开发者 Beta 版到来,对开发者意味着什么