主讲人:陆睿——阿里巴巴光网络架构师
核心内容:
今年我们阿里的网络全面的开始部署开放的10G/40G的网络,包括25G/100G的网络,开放的第三方以及AOC光模块。我们看到像数据中心的硬件、软件、存储设备、网卡、交换机、DC(数据中心)光互联都呈现了全面开放的趋势。数据中心的基础设施对我们用户来说越来越趋向于白盒化。
数据中心的光互联主要分为两块。第一块就是服务器接入到交换机这一层。这层我们同常是用AOC作为传输介质。在接入交换机往上到核心交换机这块,我们用的是光模块,速率是4倍的关系。
服务器到接入交换机的距离比较近,是用线缆的方式,到了交换机到交换机,会比较长,我们是采用光模块+光缆的方式。大概我们2013年左右部署10G/40G,到了3年之后,我们批量部署25G/100G,我们预测到2020年批量部署100G/400G的网络。在阿里数据中心光互联方案路线中,从接入速率10G到25G到100G,面板端口密度和布局可保持不变。面板带宽密度增加至2.5倍到10倍。
到了下一代的100G/400G的网络,我们的高速信号的实现变的越来越难,整个的光连接、提升带宽的方法其实总的来说有两种,第一种就是提高每通道的比特速率,第二种就是增加我们的波长通道数。
主要内容:
早在2016年以前阿里巴巴就已经在使用在服务器到交换机这一层使用开放的40G的AOC,当时因为我们考虑光模块可能在交换机的骨干网的连接承载的业务量比较大,出现故障对整个网络稳定性的影响会比较大,所以我们在光模块开放的角度稍微慢一点,那我们也在2016年做了40G光模块的试点,那结果也不错,这也坚定了我们在开放光模块AOC这一条路线往下走的决心。
今年我们阿里的网络全面的开始部署开放的10G/40G的网络,包括25G/100G的网络,开放的第三方以及AOC光模块。过去一年云计算、物联网以及AI的各种发展使得我们的数据中心发展的非常快。无论在数据中心的建设量还是数据中心性能的一些提升的需求都变得越来越迫切。
据lightcounting预测,到2019年,我们数据中心光模块量会达到5千万支,那到2021年,整个的市场规模可能会达到49亿美元,这个增长是非常的迅速。我们的光通信技术主要的驱动力是在电信的网络,路由器、光传输对带宽的增长的需求相比较数控来说是更迫切一些的,但是从我们现在看到的情况来看,100G在路由器传输上出现大概会比我们数控(数据中心的交换机)上面早好几年,但到了400G这一带,我们可以看到,400G像CMP的模块,现在用的应该是在去年有产品出来。但是我们在数据中心400G光模块今年或者明年初就会有产品出来,这一差距就是一年的时间。
数据中心对光模块的这个特性需求跟电信网络不太一样。它对小型化,高密度、低功耗、低成本都有着更高的一些要求,那也就是说我们认为,数据中心现在已经成为了推动光通信技术发展的另外一个引擎。
我们看到像数据中心的硬件、软件、存储设备、网卡、交换机、DC(数据中心)光互联都呈现了全面开放的趋势。数据中心的基础设施对我们用户来说越来越趋向于白盒化。不再是一个我们看不见的黑盒子。这带来的好处除了成本上的降低之外,也使得我们更加能够触摸到内部的技术。从而我们也能够把我们的真实需求快速反馈到我们上游供应商那里。快速的能够把我们的需求变成现实。这也是为什么我们到了100G时代,我们有各种各样的MIC标准出来。为什么不像以前只是IEEE了。就是因为数据中心的用户需求多样化起来。
技术规范我们认为是很重要的一点,是因为,大家也知道像光模块、AOC,我们都有SLF、IEEE这些标准组织制定了所有光电参数等定义。但是我们在集成的时候还是会经常发现有光模块或者AOC插到我们系统内,要么就是不识别、或者不稳定、或者读取的信息是不正确的。原因是大家在实现的过程中、包括设备商、光模块的供应商它们的理解还有不一样的地方,或者是为了快速推出产品、在标准上面并没有做到全部的适配。大家知道阿里巴巴云计算的业务都是非常关键的。
在光通信的整个数据的提升过程中,IEEE定义的误码率都是1*10-12,在1G的时候可能是16分钟一个IO,10G的时候可能是100s,到了100G的时候可能是10秒。也就是说这个误码,在同样的误码率,在速率提升的过程中,被人为感知的会越来越明显。实际上我们数据中心的用户是不愿意看到这个误码,尤其是现在计算和存储分离后,我们的存储业务对于丢包来说非常的敏感,所以说我们对光模块的性能要求是在提高的。再一个就是我们在使用光模块的过程中,我们也要面对建设运维的挑战、在过去的话,我们光模块都是由系统设备商提供,现在都是用户自己建设和运维。出现问题我们要有自己定位的能力。同时要做责任界限的划分。以便快速的定位到责任方。最后是在实践中发现问题解决问题并总结经验,理清流程的思路。不会出现更多的问题。
接下来讲一下我们阿里数据中心网络的演进的方向。我们数据中心的光互联主要分为两块。第一块就是服务器接入到交换机这一层。这层我们同常是用AOC作为传输介质。在接入交换机往上到核心交换机这块,我们用的是光模块。从表格看到速率是4倍的关系。
网络架构 | 40G | 100G | 400G |
交换机连接 | 40G | 100G | 400G |
服务器接入 | 10G | 25G | 100G |
服务器到接入交换机的距离比较近,是用线缆的方式,到了交换机到交换机,会比较长,我们是采用光模块+光缆的方式。我们过去部署的是10G/40G,我们今天部署的是25G/100G,那么到了未来,我们希望的是100G/400G。
为什么我们跳过了50G/200G这一带,其实无论是我们上一代供应商、我们用户,我们投入了这么多的精力去提升速率,带来了2倍的话,是不太经济的,那我们希望是说一步跳到100G/400G这样的一个速率。从DC网络演进时间表可以看到,速率的变化符合三年一代的规律。大概我们2013年左右部署10G/40G,到了3年之后,我们批量部署25G/100G,我们预测到2020年批量部署100G/400G的网络。
下一页是我们看到400G光模块可能的封装。
封装 | CDFP | CFP8 | OSFP | QSFP-DD | QSFP112 |
电信号 | 16*25G | 16*25G | 8*50G | 8*50G | 4*100G |
尺寸mm | 107.5*41.5*12.4 | 102.0*40.0*9.5 | 107.8*22.6*9.0 | 78.3*18.4*8.5 | 72.4*18.4*8.5 |
功耗 | 12W | 12W | 12W | 12W | 12W |
每RU端口数量 | 16 | 16 | 32 | 36 | 36 |
每RU带宽 | 6.4T | 6.4T | 12.8T | 14.4T | 14.4T |
其实光模块的封装其实是有大有小,比较大的封装容易容纳更多的光元器件进去,可以提供更多的电信号接口,同时可以容忍的光模块的功耗更高,相对来说容易设计一些,像CDFP和CFP8就是这样,这样的封装是用于早期的对高带宽的光模块的需求所实现的一种方式。
像CDFP和CFP8只能在1RU的这样的空间放16个,功耗可以到12W,每RU的带宽可以到6.4T,这两个封装因为过大,我们不认为它会是数据中心交换机的选择,这应该是我们电信网络的选择。它的电信号通道数是16*25G,也就是现在的serdis可以使用这样的光模块。那我们数据中心的400G光模块更可能的封装应该是OSFP和QSFP-DD。但是我们更倾向QSFP-DD,因为外形相对小,对运维人员来说更容易识别。QSFP112还是4个电信号通道,只不过电信号可以达到100G单通道的这样一个速率,短期内还是很难实现这样的方案。QSFP112可能是未来的一个选择。
在阿里数据中心光互联方案路线中如下图:
10G/40G | 25G/100G | 100G/400G网络 | |
交换机-交换机 | 40G eSR4 LR4 QSFP+ | 100G SR4,100G PSM4/CWDM4 QSFP28 | 400G SR4 2, DR4,FR4 QSFP56-DD |
交换机-服务器 | 10G AOC SFP+ | 25G AOC SFP28 | 100GAOC SFP56-DD |
规模部署时间 | 2013 | 2017 | 2019-2020 |
从接入速率10G到25G到100G,面板端口密度和布局可保持不变。面板带宽密度增加至2.5倍到10倍。
接下来我们介绍下具体的方案。
在10G/40G时代,
长度L<=300m,40G SR4、eSR4和OM3多模光缆方案,
L>300m,40G LR4 lite或LR4单模方案
10G接入:主要以AOC的方案为主、相比较DAC性能更好、运维界面清晰、集成难度低,受距离限制小,成本可接受。
在25G/100G时代,
长度L<=70m/100m:100G SR4多模光模块方案,成本优势依旧明显、目前技术已成熟。
L>70m/100m:100G PSM4和CWDM4单模光模块成本较贵,平均长度500m以内PSM4更有优势
25G接入:AOC目前成本仍然较高,但是在快速下降中,DAC虽然其他方面不及AOC,但成本低廉,仍有应用空间
到了下一代的100G/400G的网络,我们的高速信号的实现变的越来越难,整个的光连接、提升带宽的方法其实总的来说有两种,第一种就是提高每通道的比特速率,第二种就是增加我们的波长通道数。提升我们的比特速率一种就是提高波特率,第二种就是使用调至更高的编码方式。100M-1000M的时候提高波特率还没到技术瓶颈,但是到了10G、100G,提高波特率变得越来越难,所以我们不得不采用编码的方式来提高单通道的带宽。增加通道数也有两种方案,第一种就是增加波长通道,即1l-4l-8l。第二种就是增加光纤通道,即2芯-4芯-8芯-16芯。
100G接入的解决方案。
100G接入由于用量巨大且对成本敏感,所以光、铜的方案都有各自的应用场景,AOC负责较长的连接、铜缆负责很短的连接。
Serdes | 电信号 | 光信号 | 类型 | |
第一代 | 25G | 4*25G | 4*25G | 100G SR4 100G CR4 |
第二代 | 50G PAM4 | 2*25G | 2*25G | 100G SR2 100G CR2 |
第三代 | 100G PAM4 | 1*100G | 1*100G | 100G SR 100G CR |
400G解决方案
根据光、电信号的速率发展分为4代,当光电信号速率不匹配时光模块内部需要Gearbox
Serdes | 电信号 | 多模 | 单模 | |||
光信号 | 类型 | 光信号 | 类型 | |||
第一代 | 25G | 16*25G | 16*25G | SR16 | 8*50G | FR8、LR8 |
第二代 | 50G PAM4 | 8*50G | 8*50G | SR8 SR4、2 | 8*50G | FR8、LR8 |
第三代 | 50G PAM4 | 8*50G | 4*100G | SR4 | 4*100G | DR4、FR4 LR4 |
第四代 | 100G PAM4 | 4*100G | 4*100G | SR4 | 4*100G | DR4、FR4 LR4 |
阿里下一代100G接入方案
下一代网络芯片serdes是50G PAM4
光接入方案:100G SR2 AOC,解决最长25m-30m的接入连接。
优点:距离长、受IDC限制少,性能更优。
缺点:PAM4芯片和模块封装开发进度较慢、成本较高。
铜接入方案:100G CR2 DAC,解决最长4-5米的接入连接。
优点:可复用25G DAC线材,开发快,成本低
缺点:距离太短,比25G DAC多一倍线材,会更粗,不便于IDC布线、大批量部署的性能可能会是个风险。
阿里下一代400G光互连方案(多模)
<=70m/100m:400G SR4、2或者SR8
理由:
虽然多模在越来越高的速率实现上变得困难,但是VCSEl成本优势太大,在50G PAM4的应用上还有可行性。
SR16虽然实现简单,但是需要用16芯多模光纤导致光纤成本非常巨大,不易被接受
SR8和SR4、2虽然符合我们的要求,但是我们更倾向于SR4、2,但是SR4、2对多模光纤的要求较高,以及SR4、2的标准化将会是不确定的因素。
阿里下一代400G光互连方案(单模)
70m/100m<L<500m 400G DR4
理由:
可复用100G PSM4的8芯单模光缆,光模成本可接受
更少的激光器意味更低的成本和功耗
不需要合波分波器件
硅光技术带来的优势
400G光模块封装QSFP-DD
400G光模块在技术上仍然可以支持可拔插
选择QSFP-DD的理由
保持与QSFP+/QSFP28一样的端口密度
保持与QSFP+/QSFP28一样的运维习惯
向下兼容QSFP+/QSFP28
向上可平滑升级到400G QSFP112和800G QSF112-DD,演进路线清晰
100G接入模块封装SFP-DD
阿里提出并推动建立了SFP-DD的MSA组织,是下一代网络的100G接入的封装方案
选择SFP-DD的理由
依然保持小型化,更适合数据中心
填补2x通道的光模块封装
保持向下兼容性、不改变建设和运维的习惯
华创证券通信组: 束海峰(18618199116)、张弋、梁斯迪、李孟龙、蒋颖(15510689144)