查看原文
其他

腾讯基础设施 20 年演进之路

唐小引整理 CSDN 2019-11-27

整理 | 唐小引

封图 | 付费下载自视觉中国

出品 | CSDN(ID:CSDNnews)

腾讯 20 年,业务发展几经变革。今天,在腾讯 Techo 开发者大会上,腾讯云副总裁、云架构平台部总经理谢明博士与我们分享了腾讯过往二十年在基础设施上的总体演进与创新,这是腾讯首次全面披露腾讯 20 年来在基础设施方面的技术积累。

在 Techo 大会上,谢明博士分享腾讯 20 年基础设施演进

譬如:

  • 在服务器方面,腾讯为了应对业务进一步的极速爆发,研发了一套大规模上架管理系统,进而到今天,发布了针对云端场景做深度优化的自研服务器「星星海」;

  • 在数据中心方面,按照「高速化、规模化、集约化、智能化」来不断演进;

  • 网络层面,正在基于自研设备和 SDN 来构建第四代网络架构;

  • 存储方面,腾讯云对象存储引擎 YottaStore 能够做到真正的按需扩容;

  • 数据库方面,面对数据库性能、成本、扩展性等挑战,腾讯走上了自研数据库的道路,并在今天正式开源了分布式数据库 TBase;

  • ……

从 2006 年加入腾讯以来,谢明博士主力负责海量数据存储及接入业务相关技术的研发,在数据存储、架构方面拥有着非常丰富的经验。在大会现场,谢明博士向 CSDN(ID:CSDNnews)回顾了自己在腾讯 13 年的生涯及对于基础设施建设的思考。

腾讯云副总裁、云架构平台部总经理谢明博士(作者摄于 Techo 现场)

从社交网络 Qzone 兴起做分布式存储,定制了国内第一款多盘存储服务器,到 QQ 农场带来高并发的写入,帮助早期滴滴构建基础建设,再到今天服务涵盖大中小型,谢明博士总结了腾讯在基础设施演进过程中的关键词 —— 「为云而生」。

谢博士这样说道:「以往我们做的很多的技术都是为了海量数据,面向大客户、大业务,动辄上千万、几千亿次的访问,而今天到了云时代,是普惠的,包含中小企业」。并且,「今天所面临的挑战和过去不一样,过去是针对某一个问题单点突破,解决主要矛盾,今天各种问题错综复杂,难度要大很多」。

在这过程中,腾讯从一开始基于开源,到逐渐发现开源软件难以满足业务发展而进行自研,腾讯基础建设能力逐渐形成,当前,腾讯不仅正在探索 AI、5G、IoT 的融合演进,同时至关重要的是,将逐渐将自己的基础能力开放出来,让更多的开发者及企业受益。

以下为谢明博士在 Techo 大会的演讲精粹整理:

我想从技术、架构等维度,和大家具体分享一下,过去 20 年,腾讯在基础设施领域的演进和创新之路。

作为全球最大的互联网公司之一,我们的 QQ 活跃用户达到 8 亿,微信超过 11 亿,同时还有多款亿级 App。这些海量业务的背后,离不开强大的基础设施来支撑。


服务器


今年 5 月,腾讯全网服务器总量超过了 100 万台,成为中国首家服务器超过百万台的互联网公司。

现在回过头来看,其实,最早的时候,腾讯跟很多创业公司一样,用的是通用服务器。

但是,作为 ARPU 值比较低的互联网服务,需要对服务器成本进行严格控制,因此,我们早在 2007 年就定制了第一款 Twins 服务器。

之后,为应对业务进一步的极速爆发,我们开发了一套大规模上架管理系统,这套系统有效支持一天内交付 1000 台以上设备的能力,帮助我们度过了业务洪峰。

但是,到了云时代,客户对服务器的性能、成本、安全性等有了更高的要求。为应对这样的变化,我们刚刚在成都发布了一款真正为云而生的自研服务器「星星海」,这款服务器最大的特点是针对云端场景做深度优化,实现行业最优单核性能和最优单核 TCO,包括云服务实例综合性能提升 35%以上,最大负载能效提高 50%。


数据中心


海量的服务器离不开大规模的数据中心,一个够用、好用的数据中心,已经绝不是「在一个房间放几台服务器,拉上电线网线,旁边放两台空调」这么简单了。

腾讯数据中心整体上是按照「高速化、规模化、集约化、智能化」来不断演进。

在最新的第四代数据中心 T-Block 建设中,我们通过将 IT、电力、空调的产品化,结合腾讯数据中心最佳模型及建设方法论,按照搭积木的方式,实现全数据中心的模块化配置及快速建设。

相比于传统大规模数据中心,现场施工周期减少 80%以上。同时,由于率先在行业内采用更高效率的制冷和供配电架构,系统能源使用效率得到有效提升。PUE 降低至 1.1,以一个拥有 30 万台服务器的园区为例,一年可节省 2.5 亿度电。


网络


网络方面,今天我们已经与超过 100 家运营商建立了网络互连,出口带宽也超过了 100Tb。

实际上,腾讯前两代网络架构,基本上都是依赖商用路由器,通过人工或者工具的方法来运营和变更。但这种方式很难满足互联网业务快速发展及永不断线的要求。

于是在第三代网络架构中,我们在商用路由器之外,实现了独立的集中式路由控制器来统一管理,进行全局流量调度。比如,7 月份某运营商核心设备故障 3 个小时,腾讯网络 3 分钟切换出口恢复,类似的调度 19 年累计完成 549 次。

到了云时代,尤其是 5G 的商用,网络也遇到了新挑战,比如管理复杂,10 万级别商业网络设备,上百种型号,每种型号设备管理接口不一致。其次是弹性能力,商业路由器无法满足 IPV6 亿级别路由表项需求。第三是网络质量,用户需要更精细的租户粒度调度能力。

在这个背景下,腾讯基于自研设备和 SDN 来构建第四代网络架构。

比如,在自研设备上,腾讯自研交换机 TCS83 支持单芯片 100G 端口,自研光网络设备 OPC-4,单通道转发能力达到业界顶级 600G 水平。通过自研,网络设备 TCO 下降 20%+。


计算


虚拟化技术的成熟,使得在超大规模数据中心和高速互联网络的基础上提供云服务成为了可能,腾讯云主机管控平台 Vstation 做到了每分钟交付千台虚拟机的能力,使得一个中等规模公司的计算需求可以快速得到满足。

随着云计算的进一步发展,用户对弹性能力要求越来越高,除了 CPU 和内存以外,将存储和网络也从计算实例解耦出来成了必然选择。现在,腾讯已经通过虚拟网络 VPC 和软件定义存储 SDS 做到了内外网 IP 随意漂移和云盘的灵活挂载,再结合虚拟机的热迁移技术,做到虚拟机在物理母机间的无感迁移,有效满足物理资源升级容错的需求。


存储


存储方面,一个标志性事件是,2006 年的时候,腾讯两款国民级应用 QQ 空间(Qzone)及相册业务的突然爆发,让当时的运营商的机位和带宽全线告急,业务在高峰期必须采取限流措施。

为应对每天海量的图片上传需求,我们根据当时最前沿的分布式存储理念,迅速开发出腾讯分布式存储 TFS,有效支持了 Qzone 相册每天亿级别的图片上传。

今天,机械硬盘容量从 10 年前的 500G 增长到了 16TB,但每 GB 存储的 IOPS 能力却下降到了原来的 3%。这时候需要一个全新的云时代分布式存储,来充分利用超大规模数据中心中的计算和存储能力。

腾讯云对象存储引擎 YottaStore 应运而生,并做到了真正的按需扩容,磁盘利用率达到 90% 以上,单集群理论上可以管理百万级节点,同时大幅降低了运维的人工投入。


数据库


数据库的发展也经过了几个阶段,在敏捷开发的 Web 时代,LAMP 技术架构非常流行,以 MySQL 为代表的开源数据库成为首选。

随着社交业务的迅猛发展,QQ/Qzone 活跃账户过亿,Qzone 访问峰值达到百万/秒,对数据库的性能、成本和扩展性挑战非常大,腾讯开始走上自研数据库的道路。

首先,在架构上,采用了基于 Share-Nothing 的分布式计算存储分离架构,让计算、存储的无限扩展成为可能。其次,性能上,在单机上也尝试软硬结合优化,并通过采用多级存储介质,达到最佳的性价比。

到了云时代,技术栈的需要更加立体。我们通过开源托管、商业合作、自研三线齐发,提供超过 20 种数据库产品,以及数据备份、SQL 审计、数据管理、数据迁移等服务等生态工具,让用户获取最佳的上云体验。


弹性


通过分析以上我所讲的六大基础技术演进,我们不难发现,云计算的发展正在发生巨大的变革,仅仅能够提供常规的云服务已经远远不够。我认为云已经步入到一个极致弹性时代。那么,极致弹性时代有哪些特征呢,我认为主要有三大层面:

  • 首先就是性能和容量能「上天下海」,做到实例规格的足够大、足够小,既能帮助大客户扛住业务洪峰,又能让小客户不浪费一分钱;

  • 其次,计费模式上需要 “pay as you go”,真正按照使用量来计费;

  • 最后是快速的交付能力,秒升秒降,快上快下。

总体来看,极致弹性背后对资源管理粒度、资源调度能力、资源隔离能力以及计算/存储解耦的架构都有强依赖。


云基础产品正在朝着极致弹性努力


事实上,腾讯云在基础设施之上,云的基础产品也在朝极致的弹性方向努力。

在计算方面,作为虚拟机、容器后的第三代通用计算平台,无服务函数计算平台能够提供更好的弹性能力,真正意义上做到资源使用率 100%,相应成本要下降 50% 以上。

目前,腾讯无服务函数计算平台使用自研的轻量级虚拟化技术,可以将启动时间缩短至 90 毫秒,并且使函数冷启动率降低到万分之一以内。

存储产品,我们基于对象存储通过底层的 YottaStore 存储引擎,对于多数据中心容灾的业务场景,推出了可用性和可靠性更高的多 AZ 存储。让数据根据用户实际需求,灵活选择,从而达到成本收益最大化。

数据库方面,我们的 CynosDB 基于计算存储解耦架构,通过存储池化、日志即数据库、可计算存储等技术,单实例可以达到百 TB 级别,资源利用率可到 100%。在降低成本的同时,也提供了秒级别扩展计算能力。 


未来趋势


云计算基础设置的进化之路还在进行,云除了能够具备提供强大、高效、灵活的产品能力之外,我们认为未来云计算会结合更多的智能来提供更好的服务。 

比如,在智能运营方面,数据中心可以通过智能视频和智能机器人来实现智能化管理。

智能服务方面,我们最近研发了一种基于深度强化学习的云数据库自动性能优化系统 CDBTune,性能调优结果首次全面超越数据库专家。

此外还有数据的智能分层、计算的智能扩缩等,相信结合智能化的基础设施一定大有可为,这方面可以做的工作还非常多。

总结起来,用云、上云已经成为大势所趋,更有越来越多的产品直接诞生于云中。云计算基础架构,在一切背后,更在一切之前,我们期待跟所有云用户一起成长,共创未来。

【END】


 热 文 推 荐 

英特尔不为人知的 B 面

小米研发团队从400人增至3700人;iOS 13.3“杀后台”问题缓解;FreeBSD 12.1发布|极客头条
微软成功尝试:员工周休三天、待遇不变,工作效率却提高40%!
独家对话微软顶级代码女神潘正磊:Visual Studio 与 VS Code 的未来走向 | 人物志
搞事情?GitLab 竟公开拒收中国员工!

i 智慧 | 深度广度并举,AWS容器服务再推利器!

十年公务员转行IT,自学AI三年,他淬炼出746页机器学习入门笔记

这位小哥用1个比特币环游世界1年,不仅偶遇V神、约翰·迈克菲,还用比特币去了趟脱衣舞俱乐部……

点击阅读原文参与开发者大调查,好礼送不停!
你点的每个“在看”,我都认真当成了喜欢

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存