查看原文
其他

阿里云张伟丰:基于小芯片的计算架构正在演进成为一个大趋势

阿里云基础设施 云布道师 2023-06-18

凌云时刻

作者:阿里云基础设施异构计算团队张伟丰博士图片:版权归属 HiPChips Conference
近日,国际计算机架构顶会 International Symposium on Computer Architecture(ISCA)2022 在纽约举行。阿里云基础设施异构计算团队张伟丰博士、华盛顿大学 Michael Taylor 教授和开放计算基金会(Open Compute Project Foundation, OCP)Dharmesh Jani 等专家在此次峰会上共同发起了“高性能 Chiplet 与互联架构国际研讨会”(International workshop on High Performance Chiplet and Interconnect Architectures,以下简称 HiPChips),旨在探讨小芯片 Chiplet 和互联技术对未来计算架构的影响,从而推动工业和学术界加速合作、共建 Chiplet 生态。

此次 HiPChips 也是国际上以“小芯片”为主题的研讨会首次登上计算机架构顶会的舞台,因而吸引了包括 Google、Meta(Facebook、Intel、AMD、Nvidia、苏黎世联邦理工(ETH Zurich、伊利诺伊大学(UIUC、加州大学洛杉矶(UCLA、佐治亚理工(Georgia Tech和印度理工(IIT Bombay)等领域内顶尖行业专家和学者的参与,议题也广泛覆盖了 chiplet 架构、芯片设计、互联标准化等最前沿的研究和进展。

其中,来自 ETH Zurich 的 Onur Mutlu 教授、谷歌 Cliff Young、AMD Sr. Fellow Raja Swaminathan /John Wuu、以及 Intel 副总裁 Bob Brennan 分别做了主题演讲。

会议链接:

https://www.iscaconf.org/isca2022/program/workshops.php

为什么推 Chiplet

随着高性能计算、图形计算、人工智能等领域的爆发性增长,当前的计算架构早已无法满足指数级攀升的算力需求。然而计算技术本身却面临着更加严峻的挑战,包括日益趋缓的摩尔定律、越来越高的芯片制造成本、以及晶片尺寸的物理限制等。通过把 wafer 晶圆切分成颗粒度更细的小芯片,不仅可提升制造工艺收益率(降低芯片报废概率)、实现不同工艺芯片的混合封装(简化设计流程和降低成本),而且可以针对不同的计算要求实现更灵活的架构定制化和算力的大规模扩展。
一图看懂小芯片
然而,使用小芯片架构并不是免费的。除了各种封装和堆叠技术外,也要解决小芯片之间通讯的面积和功耗开销,以及如何让小芯片之间协同工作、集成验证和优化、建立稳定软硬件生态等操作层面的实际问题。

Chiplet 和互联架构

随着互联协议和集成技术的发展,以芯片上高密度互联基础设施和已知良片(KGD)为基础,晶圆级计算似乎正蓄势待发。
来自伊利诺伊大学的 Dr. Kumar 教授讲解了基于 chiplet 晶圆级别计算架构的最新研究成果,涵盖大计算架构、互联拓扑、散热、供电等关键技术,实现了容纳 40 个 GPUs 模块的超大处理器。相比多芯模块 GPU 架构,可以提升 5 倍以上性能和 22 倍 EDP(能量延迟积与工业界 Cerebras 和马斯克的 Tesla Dojo 相比,UIUC 的研究支持更大容量的内存和更低的片间延迟,对异构小芯片架构也更友好。加州大学洛杉矶(UCLA)作为合作伙伴在芯片高密度集成和供电技术上做出了重要贡献。两所大学的研究成果为超大芯片的协同设计提供了新的视角。不过 Kumar 教授也坦承,晶圆级别计算在工艺和落地场景上还是有不少限制,2~3 年之内很难有大规模生产的可能。
Intel 介绍了光互联芯片Optical Compute Interconnect, OCI)在高性能计算 HPC 和 AI 加速系统领域的优势,不仅大幅提升了数据传输带宽(1 Tbps per fiber)和通信距离(> 100m),而且能够较好的降低通讯能耗(3pJ/b,比 PCIe6 好了 30%)和延迟(10ns)。基于 OCI 的互联技术为计算架构的可组合、可扩展、以及内存池化等场景设计带来巨大机会。同时,Intel 另一主题演讲提到 Chiplet 时代所需要的一些关键技术,并展示了 chiplet 在 Lakefield CPU (3D Foveros) 和 HPC 芯片(Ponte Vecchio)、multi-core uServer 以及 IPU/DPU 中的应用。
小芯片技术促成了片上异构计算的可能性,因而给新颖的架构设计创造了更大的空间。来自亚利桑那州立大学(ASU)的研究者提出了类似 ARM big.little 配置的存内计算架构 (IMC)。相对于 GPU 等加速器,该架构为 DNN 模型提升了 10 倍性能和~100 倍的功耗效率。AMD 则分享了 Zen3 小芯片扩展缓存案例。

Chiplet 架构设计

显然,除了架构和互联技术,chiplet 这个方向也带动了芯片工艺设计和封装技术中多个子领域的发展。本次会议的分享内容也涵盖了:
  • EDA 自动化工具支撑多个互联协议(BoW, OHBI, Ultra-Link, UCIe);

  • 改善互联接口布线密度、减少层间 cross- talk、增加可扩展并行性;

  • 进封装技术的小芯片成本模型;

  • 异构集成的质量和可靠性分析等前沿研究。
佐治亚理工(Georgia Tech研究者带来了 5.5D Glass Interposer 集成技术,即 2.5D interposer+3D flipped/embedded chiplet stack。相比于传统的 3D 集成,5.5D 集成实现了更低价的解决方案和更好的 PPA。
来自加州大学·伯克利的初创公司(JITX)通过 Chisel 语言和软件定义方案,实现了小芯片、封装、和板卡的系统设计和集成优化工具。其系统设计中间表示(ESIR)和 chiplet 编译器,让小芯片系统的自动验证和优化更加高效和便捷。

Chiplet 标准化和软硬件生态

Chiplet 的健康发展需要小芯片互操作 (inter-operability)标准和规范化。这无论对大厂还是小厂来说都是有益的,不仅可发挥百家之长,也能让小芯片用户承担得起成本。历史上,美国 DARPA 和日本 MITI 政府性部门通过标准和规范都曾大大加快了先进技术的发展。
谷歌在《Universal Chiplet Solution》主题演讲中提出了小芯片互联的数据面物理层、链接层和协议层控制面管理、安全、测试等开源标准。同时 OCP 的开放领域专用芯片架构工作组(ODSA)也致力于解决领域专用架构和芯片互联私家协议之间的互操作,使能不同厂商的小芯片设计和集成并帮助建立统一市场。ODSA 的接口协议(BOW)定义了开放式 PHY 规范来支持 D2D 并行接口,对现有封装和先进的封装技术可以达到 1T 和 5T 的传输速度。目前已经有 7 家公司支持 BOW 的 IP,有超过 4 家公司正在开发基于 BOW 的产品。ODSA 也通过组织会员的共同努力,开始了 BOW 测试芯片的流片和原型系统。除了 BOW 接口协议外,最新的 UCIe 互联工业组织自成立以后立即呈现众星捧月、蒸蒸日上之势。ODSA 在 2022 年的一个目标就是和 UCIe 合作,形成互补关系。
在软件生态层面,阿里云分享了震旦异构计算开放平台HALO/ODLA)。为了使能片上异构的多处理器并行计算,需要更加轻量级的计算框架。同时针对片上互联接近于零的通讯延迟,计算框架也需要研发有别于传统优化的新颖策略。震旦因其可裁剪可扩展的轻量级接口、极简的内存足迹、和内禀的异构并行支持,非常适宜作为小芯片加速系统的软硬协同计算平台。震旦平台也获得了包括 Intel、UIUC 等研究者的认可。
为了追求数据中心的可持续发展,Meta(Facebook)研究者提出了基于 chiplet 的计算架构和碳足迹评估模型。我也和该项目负责人探讨了阿里巴巴和 Meta 未来在碳中和领域合作的可能性。结语
HiPChips 小芯片研讨会在 ISCA-2022 上实现了一个非常重要的里程碑,也得到了广大生态伙伴的积极响应。此次会议的目的之一就是希望通过理解小芯片系统关键技术的挑战和机遇,从而推动芯片领域相关产业链生态伙伴共同构建统一的生态系统通过与会者的研究、实践和分享帮助建立一个较为清晰的技术大图,明确当前小芯片的发展状态和未来的技术重心,同时也为工业和学术界的顶尖研究人员和专家提供一个密切合作的平台。
基于小芯片的计算架构正在演进成为一个计算架构发展的大趋势,我们相信它将为阿里云数据中心的未来计算技术,在性能、功耗、可扩展性、可持续性等诸多层面带来巨大优势。本届研讨会也再次呈现了阿里云在 AI 软硬件生态领域的领导力和对社区的积极贡献,我们相信它也会对阿里云在相关生态领域的合作产生更加深远的品牌影响力。未来,阿里云将继续深化同计算技术社区的合作,共同探索未来 AI 软硬协同设计的技术方向。

 作者介绍

张伟丰博士,阿里巴巴集团研究员,现任阿里云基础设施事业部异构计算负责人,负责阿里云 AI 异构硬件加速、软硬协同设计、AI 编译、和大规模异构资源池化加速等技术产品研发工作。张伟丰博士毕业于美国加州大学·圣地亚哥(UCSD)计算机专业,并在计算机架构和 AI 领域发表过多篇顶会和顶级期刊论文(ISCA、HPCA、PPoPP、AAAI、ICLR 、FPGA、PACT、CGO、IEEE TC )。曾作为加州大学·圣地亚哥的兼职教授,负责制作和讲授高年级本科生《编译器构建》课程。
伟丰代表阿里巴巴担任开放计算基金会(OCP)软硬协同设计工作组(AI Co-design workgroup)技术主席,负责开放计算系统(领域专用加速架构 ODSA、小芯片互联协议标准 BoW/OHBI、以及用户场景等)生态对接和标准化支持。同时,伟丰也代表阿里巴巴任权威 AI 基准测试组织 MLCommons 董事会成员,屡次带领团队获得 MLperf 推理性能榜单多个领域第一的好成绩。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存