查看原文
其他

Amazon CTO高调公布AWS数据中心设计方案

2015-04-18 云头条

每当向Amazon问起其AWS数据中心时,大家得到的回应都是:Amazon方面不会讨论与其数据中心有关的话题。然而就在当下,该公司首席技术官终于打破了这一僵局。


一身全黑着装证实了AWS所使用的可不止是“白”盒设备


Werner Vogels在本周三刚刚闭幕的伦敦AWS峰会上为与会者们开启了一扇小窗,而我们也借此机会得以通过他作出的题为《AWS在数据中心领域的创新》的演讲中一窥Amazon数据中心的神秘真容。


Vogels在会上身穿清一色黑色长裤、夹克及衬衫(他在自己上午的主题演讲中穿着的则是一件阿明·范·比伦的主题T恤),并象征性地掀起了自己的夹克、开始大谈AWS业务背后隐藏多年的技术体系。


AWS如今已经实现了许多当初只有Windows才取得过的成就:一台用于承载业务的通用型平台。作为起步目标,AWS最初仅仅是希望帮助企业客户从自行构建服务器体系所带来的诸多烦恼当中解脱出来。然而时至今日,AWS已经开始为使用者提供种类繁多的新型服务。


客户基础中的另一大重要群体属于纯粹的互联网企业,他们并不需要建立并运行属于自己的服务器及相关基础设施。其中包括以Just Giving为代表的个人及团体资金筹集类在线服务以及Omnifore——由SiriusXM及索尼音乐有限公司共同建立的音乐流基础设施体系——等服务项目。


Just Giving与Omnifore恰好介于客户以及原始AWS基础设施之间,事实上非技术人员很难把这二者联系在一起。双方业务正常运行所依托的数十万台服务器及网络交换机全部由Amazon方面负责定制设计与构建,并由后者同英特尔及其它厂商协同完成。大量服务器集合起来就构成了——没错,数据中心。其中包括Amazon的Availability Zones,而其本身又构成了多个区域组成部分——具体来讲,其中共包含十大区域与二十八个分区。


Vogels在此次AWS峰会上探讨了宏观布局背后的架构设计思路。很明显,根据Vogels的说法,Amazon公司经常会收到大量针对其数据中心所提出的问题。


每个区域由两个或者更多Availability Zones所构成,而每个分区都至少拥有一座数据中心。没有任何一座数据中心同时服务于两个Availability Zones,而且某些Zones甚至拥有六座数据中心作为资源支撑。这些数据中心必须隶属于不同电网体系,这是为了保证任何供电中断状况都不至于一次性令整个分区陷入瘫痪。


三个R:复制、复制、还是复制


Availability Zones正是AWS用于解决备份及延迟等一直困扰着远距离大范围计算体系难题的答案。从传统角度看,位于纽约的企业往往会将灾难备份设施设立在新泽西州,但其数据同时也会横跨整个美国比复制到洛杉矶地区作为冗余。


不过根据Vogels的说法:“这种老式复制机制事实上并不适应规模化体系下的实际情况。如何单一事务的传输过程会耗时1到2毫秒,那么复制过程将令延迟猛增至100毫秒。在此之后,如果大家需要从纽约指向洛杉矶以实现故障转移,那么噩梦般的状况将随即出现——故障之后的负载回归甚至更加糟糕。总而言之,将发生了故障的系统整合到实时系统当中本身就是一场灾难。”


为了解决延迟问题,Amazon公司将数组紧密耦合在一起的数据中心共同构建成Availability Zones。该分区内的每座数据中心在进行彼此交互时都拥有低于25毫秒的延迟水平,而数据包的整体网络传输能力则为102Tbps。


AWS需要解决的另一大难题则是跳动,这主要是因为各虚拟化应用程序会相互争夺对原始I/O的访问、进而拖慢处理速度。Amazon给出的答案非常明确——构建自己的网络设备。


“这种跳动状况在虚拟化情况下成了大问题——也就是对受控网络访问权的激烈争夺。大家实际感受到的就是网络状况经常跳动、无法实现平顺与稳定,因此我们下了一番力气将其彻底清除出AWS体系之外。为了实现这一点,我们将网络处理负载从服务器端转移到专用的网卡当中,从而发挥其单一根I/O虚拟化技术,最终带来了坚实而具备统一性的网络性能。这让TCP/IP性能顺利实现了平衡表现,”Vogels表示。他同时补充称:


“我们能够为大家带来如泰山般岿然不动的延迟表现。”


这些数据中心每座都拥有最高八万台服务器的可容纳能力——这一数字为优化的最高极限——而且其实际服务器容纳量至少为五万台。这些服务器由Amazon公司亲自构建,并与英特尔及其它制造商合作完成。别误会,这些设备可绝不是什么便宜的地摊货,Vogels强调称。


“别以为这些都是白盒服务器,”他指出。“这些服务器都是能够满足最为严苛的企业级需求的好货色。”


Amazon公司已经通过与英特尔方面的合作进行了芯片调整以获得更为出色的性能表现。就以最近刚刚推出的C4实例为例,其配备有英特尔的Haswell处理器家族,所采用的生产规格能够以更低的CPU功耗水平满足AWS对于高性能表现提出的诸多要求。


Amazon方面还去掉了当前标准化现成服务器当中那些不必要的功能。音频芯片与电源变压装置都被剔除了出去,这不仅有助于降低功耗水平、同时也帮助AWS显著节约了冷却成本。“在传统服务器环境下,仍有很多元素的存在让我感到莫名其妙,”Vogels总结道。


文章来源:ZDNet


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存