别人家的小孩,长成芯片“大佬”在计划之中自从 2014 年加入阿里云基础设施服务器研发团队,蒋晓维至今仍在这里从事服务器研发工作,研究领域覆盖 CPU 架构、芯片设计、网络、虚拟化技术等。在此之前,他曾在 Intel 和 Google 工作,在芯片、软硬件领域硕果累累。在 Intel,他是首颗超低功耗 CPU Quark D1000 的首席架构师,定义了其核心架构,参与 多代芯片端到端开发测试流片和产品化;同时他也是 Edison SoC 芯片的架构师。在 Google,他参与Google第二代SDN网络的研发工作,负责其中的数据面开发。加入阿里后,他完成了国内首颗 x86 CPU 的特性定制化工作,使阿里成为国内第一家部署基于定制CPU 的自研服务器的公司,开了国内定制化 CPU和自研服务器 的先河;在网卡领域,他定义了高性能虚拟网络硬件转发,确定了阿里云网络转发性能业内第一的地位。从现在的视角会看,蒋晓维的这些成果在当时的背景下,无一不对当时的计算机体系架构领域产生重大影响。不积跬步无以至千里,蒋晓维是如何从幼龄小童成长为一个对中国乃至世界计算机领域做出贡献的科学家呢?从小到大,蒋晓维的成长经历都是典型的父母眼里别人家的小孩。他生于六朝古都南京,是土生土长的南京人。小学时期,蒋晓维就在计算机上显示出了不同于同龄小孩的聪慧,尤其擅长数学,小学三年级就被南京市选拔开始学习编程,六年级获南京市青少年奥林匹克信息学竞赛一等奖,初中和高中分别获得过全国数学联赛江苏赛区一等奖。在这个过程中,蒋晓维不仅对编程产生浓厚的兴趣,还对程序如何运行在底层硬件这件事很感兴趣,毕竟在那个年代,包括 CPU 在内的计算机底层芯片对于人们生活的影响还没有很明显的体现,程序能在一枚小小的芯片上运行对蒋晓维来说是件新奇的事。当时,他曾接触过一个叫做 laser310的芯片,可能现在很多人已经认不出这是何物,它其实就是一个只有 8K 的 ROM,固化了 basic编程语言的 CPU。按照蒋晓维的话来说,回头看当时的底层芯片,真是“low”到不可思议。但随着 CPU 技术的发展,现在底层芯片已经发生了翻天覆地的变化,性能得到千万,甚至上亿倍的提升。进入互联网时代,分布式、大数据、AI 各种应用层出不穷,大家都在追求极致的性能。小时候这股“开挂”的石头后劲十足,一直持续到他进入南京大学学习电子工程,又一路顺利读研,最终在北卡州立大学完成博士学业,取得计算机工程博士学位。在读博期间,蒋晓维接触到很多计算机领域的专家,为他之后学业和职业生涯奠定了基础。蒋晓维是个目标明确的人,认准了计算机架构这个方向才定向选择到北卡州立大学求学,并选择了自己的导师和专注于计算机结构领域实验室。在实验室里,蒋晓维认识了很多对他产生重大影响的专家们,其中对他影响最大的,是他博士期间的导师(Yan Solihin)。这位来自印尼的教授是美国电子电气工程师协会 Fellow,在计算机体系结构各个领域都有很多学术贡献,也对 x86 等各种商业化产品产生过较大的影响,比如 x86 里的CAT,即Cache QoS技术,他就是最早的发起者,硬件安全领域中的安全处理器,最早也是由他提出的。在这位态度严谨的导师的影响下,蒋晓维专精于计算机体系结构,同时也广泛涉猎操作系统,具备安全等跨领域能力,对他后来在工作中的选择方向和领域产生了比较重要的影响。毕业后,蒋晓维先后在 Intel、Google 和阿里巴巴从事计算机结构、网络、服务器等领域工作。在全球顶尖科技公司工作,三家公司给了他不同的感受和经历。打造首颗低功耗CPU Quark D1000Intel 是蒋晓维毕业后走向职业生涯的第一个“东家”。这家老牌公司虽然员工平均年龄是三家公司中最大的,但创新能力也是有目共睹。在这里,蒋晓维是史上首颗低功耗x86 CPU Quark D1000,以及 Edison SoC 的架构师。
图源:视觉中国 Quark 一族早已历经数次迭代,性能早已不同往日,但回顾起来,Quark D1000 对于Intel 公司,乃至整个 CPU 技术和市场,都有着重要的意义。不仅是 Quark D1000,蒋晓维作为首席架构师研发的 Edison SoC 对于 Intel 来说也是至关重要的产品。在 2014 年的 CES 展上,Intel CEO 发布了这枚片上系统,引起了很大关注。加入阿里巴巴之后,等到 2015 年蒋晓维路过杭州的云栖小镇,当地已然围绕 Edison SoC 形成了一个创业生态社区。在Google打造第二代SDN网络在 Google,蒋晓维感受到了与 Intel 不一样的氛围。这里的员工平均年龄更小,非常鼓励创新。
图源:视觉中国 在这里,蒋晓维从事的是数据中心负责业界最大规模的第二代 SDN 网络研发工作,团队里有一群来自于美国各个大学,拥有教授背景的同事。学术界其实很早就已经提出 SDN 的概念,Google 是第一家将之实现并在数据中心大规模部署的公司。 在阿里,开创国内定制化CPU和自研服务器先河 时间来到 2014 年,蒋晓维加入了阿里巴巴,与一群更加年轻的人共事。与 Google 总体单调的业务相比,阿里的业务场景更加复杂,给了做技术的人更多与业务结合,以业务驱动技术创新的发挥空间。他做的第一件重大成果就是完成了国内 x86 CPU 定制化和自研服务器的工作,打造了离线和在线业务负载tracing 能力,开创了国内定制化 CPU和自研服务器 的先河。阿里的初衷,是让底层的 x86 CPU 和服务器能够更好地适配阿里云的计算需求,蒋晓维团队的工作主要是填充之间的 gap。所以,他们针对阿里云在性能在功耗各方面的特征和需求展开 trace,捕捉这些业务的特征。有了这个能力之后,阿里一方面可以有的放矢地进行性能优化,更重要的是联合英特尔针对性地对 CPU 和服务器做后期改动,让 CPU和服务器更好地满足阿里云的需求。同时,蒋晓维团队还针对阿里业务定义 benchmark,让定制 CPU 和自研服务器从系统层面、微架构层面确保性能符合业务需求。值得一体的是,在阿里,蒋晓维与同被入选 HPCA 名人堂的谢源一起工作,两人不仅在工作上交集颇多,也保持着不错的私人关系。在蒋晓维看来,谢源是华人中的旗帜性人物,由于在计算结构领域的前沿方向性贡献,谢源是目前唯一一个“集齐”ISCA、MICRO、HPCA 三大顶会名人堂荣誉的华人。虽然不在同一个部门,但工作上的共性让两人之间有了一些合作,比如合作发表关于图计算与高性能计算集群 EFLOPS 论文。除去这些荣誉上的光环,蒋晓维眼中的谢源是个平易近人,球技不错的足球爱好者。在专业上,谢源是个对技术方向性具有前瞻和预判的科学家,此前在 AMD 建立中国团队的经历,也让他在学术和工业两方面具备了良好的判断力和执行力。在笔者看来,同被选入顶会名人堂,可能与蒋晓维和谢源两人身上普通人不具备的共同特质分不开,比如对技术创新促进技术发展,通过技术手段应用于实践,给上层业务带来红利,反过来业务也可以驱动底层创新这一点坚信不疑,换句话说,他们都是 believer。
高性能计算的未来:新内存介质将涌现,图计算是方向性领域在学术上,今年 2 月份,蒋晓维系统性介绍了阿里云的高性能 AI 集群的节点架构、网络架构、和通信算法的一篇论文被 HPCA 收录,该论文名为《EFLOPS: Algorithm and System Co-design for a High Performance Distributed Training Platform》,展示了他对于高性能计算的思考和 EFLOP S集群为阿里巴巴业务带来的价值。
图源:视觉中国 这个由来自多个部门的阿里技术专家参与打造的集群可将大模型的训练速度提升4 倍,并支持千万分类模型的训练;在提升翻译模型精度的同时,能将训练时间从100 小时降低至12小时。关于高性能计算的未来,蒋晓维也给出了一些自己的看法和预测。他说到,高性能计算,包括 CPU 所擅长的通用型计算未来都会出现一些新的技术与趋势。首先,是新的内存介质和计算架构会源源不断地涌现,比如就在过去几年,非易失内存 Apache Pass 的出现使得内存能力得到巨大提升,同时也改变和计算架构,很快会有其他介质的内存出现,in memory computing技术也会不断产品化。此外,未来软硬一体化的设计思路将会更多,结合业务上层的软件特质,对底层架构设计产生打的影响。最后一点是图计算将是未来计算领域的方向之一,包括稀疏性计算在图计算和一些 AI 场景下都会体现出重要性。无论是 CPU ,GPU还是计算体系,这方面都有很大的提升空间,在不久的将来可能会出现相应的解决方案。除了大的方向性趋势,蒋晓维还从实处聊了聊当前的处理器现状。进入智能计算时代,IoT 已成为未来应用的新趋势已成为业界的共识,因此针对 IoT 的底层计算设备至关重要。MCU 处理器就是非常适合 IoT 场景的底层硬件。在微控制器架构层面上,现状是 x86 和 Arm 等架构并存,的从专业视角来看,哪种架构形式将成为主导呢?MCU 架构又会向什么方向和趋势发展?首先,蒋晓维说到,MCU 处理器其实更多地是针对 IoT 场景,之前这一领域是 Arm 的强项,但最近几年 RISC-V 崛起,不断地吞噬这一部分市场。就 MCU 来说,从软件生态上来看,Arm 和 RISC-V 一定会是主导,但除了这两个架构之外,可能也会有其他在这个生态之外的单个点的架构的存在。而对于数据中心的服务器,不管是公有云还是私有云,因为 x86 上层的软件生态构建相对完善,x86 的服务器可能在未来一段时间都是主导,但是 Arm 也是一股不容小觑的崛起的势力,在中国,Arm 已经在服务器侧推出了一些产品。
深度优化底层硬件在图计算领域的性能表现至关重要在 HPCA 收录的文章中,除了 EFLOPS,蒋晓维和研发团队还率先提出 CPU 架构上运行图计算的六大瓶颈,并给出相应的优化方案,为图计算未来的芯片架构和服务器架构奠定了理论基础。之所以在图计算上投入巨大精力,是因为阿里云认为图计算是一个继 AI 之后额方向性领域。蒋晓维认为,图计算与 AI 的处境有所不同,深度学习目前已经有了很不错的底层硬件支持,比如谷歌的 TPU,阿里云的含光 800、GPU 等,但是图计算上,无论是 CPU 或 GPU,还是服务器架构,底层硬件对图计算的支持几乎是空白。未来,业务必将向图计算发展,因此,深度优化底层硬件在图计算领域的性能表现,这对于学术界和业界来说都具有重要的意义。