查看原文
其他

我们把服务器从1米多的台子上扔下来了,没坏

腾讯云 2022-05-17


是的,我们真会把服务器从最高1.2米的台子上把服务器摔下来。


这是为了给它做整机跌落测试。


检测服务器能否在震动、冲击等极端情况下,给用户提供稳定的服务。



只有通过的服务器,才能进入腾讯云的数据中心。


实际上,不止是跌落测试,为了保证服务器不宕机,服务实时在线,腾讯云从服务器的选用、日常运维到急救,各类自研技术统统安排上了。一台服务器的不同阶段,分别有不同“服务器医生”守护!



第一阶段:高标准定制、选用服务器


在腾讯云,服务器想进数据中心的大门,得先经过“体检医生”全方位的性能测试。



除了要经得起“跌落测试”,也要抗得住业务“压力”。


压是真“压”,长时间、满负载的稳定性压测是必备动作。连续运行超过12小时,服务进程不重启业务不出bug,才算一台内外兼优的好服务器。



服务器内部配置要求更高。


比如,作为服务器里的“运动员”,硬盘每分钟转动、碰撞上万次,极易出现磨损和故障。这些故障和运行的业务是有关系的。



关系是什么,以前很难弄清楚。但腾讯云根据腾讯业务模型不断测算,最终找出了规律。选取定制化磁头和碟片进行生产,几个月时间,就把硬盘年化故障率(AFR)降低了80%左右




第二阶段:7x24小时“巡诊”击退bug


服务器进厂运行“服役”后,健康就更重要了。为此,腾讯云准备了诸多技术,7x24小时保证服务器时时在状态。


首先出场的是“化验医生”——数据中台。它掌握先进的数据清洗、数据校验技术,可以实时感知服务器内的数据状态。一旦发现内存、硬盘等部位出现数据异常,会立即通知对应部位医生诊治。


比如,硬盘就有自己的诊科医生“硬盘打分AI系统”,当硬盘有较高损坏风险时,会向运维系统报告替换硬盘。


内存也有自己的诊科医生——多套内存监测算法


当内存发生单比特的故障——CE(可纠正错误,corrected error)时,内存自带的修复功能就能解决bug,用户体验几乎无感。


但当内存发生多比特故障——UCE(不可纠正错误,uncorrected error),服务器立即宕机,用户也将收获一个“502”。


为此,腾讯云准备了一套监测算法,可以提前识别可能恶化成UCE的CE错误,使UCE拦截率提升超过20%



在监测算法之外,腾讯云还完善了MCA RecoveryMACHINE-CHECK  ARCHITECTURE Recovery)技术,可以阻挡内存做“傻事”。



用上这套算法后,出现UCE问题时,服务器不会立即重启,而是标记和隔离内存故障数据,再加以解决。目前,可以规避接近一半内存故障导致的宕机。



第三阶段:终极急救大招“换身术”


经过上面两个阶段,已经可以解决服务器遇到的绝大部分故障。但如果发生极端情况,服务器最终陷入了故障,怎么办?


不用担心,腾讯云早就给服务器备好了急救医生——数据热迁移技术和硬盘多副本技术,保证数据不丢失、用户体验不受影响。



过去服务器出现故障(主要是内存故障)时,得先给服务器关机,才能做数据迁移。这会给业务带来极大的影响,比如游戏厂商就得安排某些服务区关机、停服……


腾讯云自研热迁移技术就不同了,换身过程中,无需关机,只把内存的几个问题“字节”圈住,再把其他健康数据迁移走,迁移完后再关停损坏服务器,启用新服务器,整个过程用户使用体验也不受影响。



硬盘损坏同样扛得住,腾讯云有多种多副本技术,保证用户数据始终有多个完整副本存在不同服务器中。一个坏了,其他的随时顶上,保证用户使用相关服务不会受影响。


当然,上述只是服务器保护工作中的冰山一角:






  • 数据中心内,比照国家要求,有严格的温湿度及电压调控,保证服务器始终运行在稳定的环境中。

  • 设有服务器故障智能监控体系,能够明确故障部位告警并快速维修。数据中心内,7x24小时安排驻场维修人员。


  • 服务器资源从机器上架到回收退役无缝衔接,全生命周期保证数据安全。退役服务器会进行严格的数据销毁操作。

  • 未经用户授权,腾讯云绝不主动触碰服务器数据。即便用户授权,腾讯云也会通过权限划分确保权限最小化,所有额外权限均需要经过多级评审批准 ....


现在,你知道为了让你网上冲浪顺畅,腾讯云有多努力了吧!


🔚


没看过瘾?这里还有

 创造「星星海」:腾讯自研服务器的关键一战


● 今后,请叫我“腾百万”


也可以通过视频号了解最新动态:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存