查看原文
其他

国产芯片仿真云的孤勇突围

腾讯云 2023-03-23

必须赶到上海。
2022年9月2日深夜,这个念头冒出来时,腾讯云副总裁许华彬的朋友圈正被第二天深圳将全城静默的消息刷屏。
他果断买了机票。上海芯片企业燧原科技的新一代AI芯片研发即将进入临门一脚的“冲桥”阶段。
这个阶段,芯片仿真验证任务处于关键支撑阶段,需要大量计算资源。可以预见腾讯云和燧原、速石科技三方合作的芯片仿真混合云平台项目也将迎来算力波峰。
这是腾讯云支持国产芯片企业的第一个项目,也是燧原第一个上云的芯片项目。
面对大考,必须火速赶往,当面进行交流并支持。
事实证明了“抢飞”决定的正确性。随后的三个月,算力以远超预期的幅度攀升,各方都投入了最高规格的技术和人力保障平台稳定、高效运行,全程护航。

随着芯片仿真验证工作收官,在国内首次采用“存算分离”架构的芯片仿真混合云平台项目,也宣告突围成功。

//   大芯片研发上云,赌得起吗?
燧原上云的这一步并不容易。
芯片是一个相对传统的行业,比云计算早诞生了几十年的时间。很多企业部署了较重的线下IDC资产,遵循着一套标准化的使用流程。
但其实,芯片设计在不同阶段对算力的需求不同,波动明显且难以预测。为了突发的需求部署大量的冗余资源,从成本角度很不划算。而且,芯片研发需要的是高性能的先进计算资源,如果要一直更新机型,负担很重。
另一方面,随着这个行业市场愈发繁荣,竞争激烈,芯片研发争分夺秒,如果一年时间不推新,可能就错失机遇。以常规的方式采购、部署服务器的话,光测试上线这些设备就要花掉几周时间。
要快速、灵活地获取海量高性能计算资源,显然,云计算的弹性特点却能很好适配。
然而,下定吃螃蟹的决心,并不容易。
人工智能大芯片设计精密复杂,而燧原正在研发的新一代芯片迈入新的制程,每减少1纳米,制程的难度指数级增加。
要在如此关键的项目上“闹革命”吗?更何况,这个制程的芯片研发上云,国内尚无先例。
因此,此前腾讯云多次抛出橄榄枝,燧原迟疑不定。
“云计算是一个很好的方向,但我们确实有疑虑。”
变化出现在2022年3月。项目马上就要开始仿真验证了,这也是整个芯片研发过程中,算力需求最大的环节之一。算力波峰如果达到几万核,常规上要在一周甚至一天内加设百台级的服务器。
然而,上海疫情全面爆发,“封城”期间,新的机器根本进不来。常规的算力补充路径被彻底阻断。
亿级投入的芯片项目,赌不起。
这是燧原第一次深刻地认识到,这个行业有多么需要基础IT资源的“确定性”。用上云这短期的一步,换来后续的稳定保障,是否一劳永逸?
他们试探性地问:能否把所有的存储放在本地,只在需要弹性算力的环节使用云?
乍一听,这个要求很“别扭”。
云计算时代,服务器和服务器之间需要进行大量的数据交换。因此,数据中心通常会将存储和计算资源部署到一起。
当然,在大数据领域,应对数据大爆发的挑战,行业也在不断探索“存算分离”架构,即让云上的计算节点和存储节点解耦,可以只扩容存储资源而不影响算力资源,并引入低成本存储工具配合计算节点运行大数据作业。
但腾讯云能理解燧原这个需求,完全是从数据安全的角度上考虑的。核心知识代码和流程工艺等数据的安全是重中之重,是芯片企业的命门。
他们需要的是更加彻底的“存算分离”,云上仅包含计算,所有数据存储在本地,通过专线远程访问。相比起云上的存算分离,这种架构对网络时延、带宽吞吐率和效率的要求都会更加严苛。
这也是国内芯片企业从未实践过的构想。
但如果这个顾虑是燧原上云前最大的障碍,那就必须搞定。业内没有,就自己搞一个。
随后的几个月,腾讯云、速石与燧原一起,大胆假设、小心求证,搭建了“存算分离”芯片仿真混合云平台。
为此,腾讯云提供足够多的算力机型,在需要弹性算力时,根据业务作业的不同类型,配置相应的算力资源。
速石平台的云原生调度器,则能在不改变用户的使用习惯,让使用者无感地调用云资源,减少上云的学习成本。
而为了进一步提高安全性,在传输层面,一条连接腾讯云和燧原的超大带宽的专线拉起,保证传输通道安全可信。同时,腾讯云的iOA方案,可确保终端的安全、信息的保护。
“我们整个项目对于算力非常迫切的需求。这是我们上云的一个契机。”燧原科技项目负责人Eli回忆,在解决了数据安全的顾虑后,他们决定放胆一试。

一场突围战开始了。

//   最快速度集结兵力,冲桥!
一款人工智能大芯片包含百亿级别的晶体管。每一个角落的前端工艺设计和各种功能指标,都需要进行全方位的仿真验证。
因此,芯片仿真需要大量算力,但波峰会达到多高,项目组也无法精准预估。
从某种意义上来说,这是一场“未知之战”。
芯片仿真混合云平台于6月正式上线,在9月许华彬造访之前,算力迅速爬升的势头已经显露。10 月,算力达到初始规划的数倍。11月,算力继续爬升。
算力“爆炸”背后,是一个关键的环节——芯片各项功能的一致性验证。
可以理解为,前期,燧原的研发人员,分成一支支小队,各自负责一部分编码和功能设计。后期,在芯片正式流片之前,就要将各项功能集结做“期末考”。
“所有的模块要在同一时刻冲过独木桥。”
整个验证过程,就是无数次过桥的尝试。研发团队小时级 stand by ,一旦发现问题,马上找问题,修复,再尝试冲过桥。
这就像在用穷举法解一道排列组合题,仿真、验证、测试、回归、再测试,不断循环往复,这让云平台始终处于高压状态。
有时候,算力会突然冲到几万核——这相当于在一瞬间同时拉起数百台的大规格的机器,整个系统必须保持高稳定性和实时响应能力。
而每一次系统报错后,他们就要经历一场或大或小的排查:是网络的问题,云的问题,存储的问题还是调度器的问题?有时,问题可能只是适配或兼容的问题,因为各环节使用的软件、工作方式差别巨大。
在战况最激烈的时刻,三方人员进行了长达两周的7x24 小时轮班值守。每天晚上10 点,上海、深圳、北京、杭州的业务人员要开例会,复盘当天遇到的状况。
效率,效率,效率。工作群里高频出现这个词。要成功闯关,必须在有限的时间内做频繁验证,有效利用研发效能。团队很多,作业很多,各模块要并行计算。
腾讯云具备丰富多元的裸金属实例、 GPU 实例,在芯片的仿真验证和性能对比测试环节,可一站式完成多代次,多卡型的验证工作,极大提升部署效率和测试效率。
这还不够,在远端,腾讯云越来越多的专家加入,工作群随时都有总监级的研发人员被拉进去提供支持。速石也这个项目投入了包括首席架构师在内的大量精锐。
经过不断的改进调优,平台最终做到充分的并行作业,在两分钟时间里即能快速完成服务器交付,小时级别完成研发环境交付。研发在晚上提交的作业,次日早上就能收到结果,为一次又一次的“冲桥”最快速度集结兵力。

最终,经过16天*24小时值守,他们提前到达了桥那边。

//   给芯片企业带去更多“确定性”
“大家一起摸着石头过河。”事后回顾这次合作,三方都觉得这是一次共同学习,深入“know—how”的过程。这次合作充分展现了云计算对于芯片行业的价值。
中国的芯片企业从2021年的2800多家,跃升至2022年的3200多家。这个池子需要注入新技术的“春水”。
云计算提供的弹性算力支持,既满足了在有限时间内快速获得大量算力资源的要求,也让研发人员可以并发作业,研发效率得到极大优化。在成本上,上云也避免了IT基础设施的重复建设。
长达八个月的实战后,燧原看到了一张成绩单:总体任务并发量通过云端弹性同步提高,缩短仿真周期30%-50%,节省了可观的IT投入的综合效益。
未来,燧原打算逐步扩大用云规模,把使用弹性算力的环节尽量都上云。
“这个项目对整个混合云建设架构的要求是比较高的,这是一个特定的挑战点。”速石高级技术总监陈琳涛指出,这次的合作对网络时延、带宽吞吐率和效率的高要求的挑战,对于他们也是一次难得的操练。
腾讯云高性能计算行业高级经理Kevin在工作内外都关注芯片行业。亲身参与这场突围之战,他分外钦佩和感谢燧原的选择。
这次孤勇,为行业提供了上云场景的新认知。芯片仿真云本身专业属性很强,并不能用一套通用的方案和架构搞定。一开始看起来“别扭”的存算分离的方案,事后证明对这类芯片企业才是最优解。
它减少了数据流转步骤,统一了数据安全访问策略,简化了上云场景选择和数据准备过程。在守住数据安全的命门后,云端的算力红利有望惠及更多的芯片企业。
此外,芯片行业的云上使用,只是前沿高科技领域对云端高性能计算(HPC)需求的缩影。传统的高性能计算算力红利相对陈旧,不少科研机构和科技企业已经转向云上。
从2021年开始,腾讯云就在HPC领域加大投入,持续进行底层技术储备。目前,腾讯云部署了BMM5c 裸金属机型、M5大规格内存机型等,单机最大具备3TB内存,单机单日可完成数百个仿真验证作业。通过云端规模优势、新代次优势等,综合效率相比本地自建提升50%
此次项目攻坚结束后,技术人员梳理了一张技术问题清单,上面列出了超过具体问题的解决方案。比如,如何通过内存优化的技术防止仿真过程的报错。
这些沉淀下来的经验,将用以服务更多合作方,更好地满足HPC领域存算分离的场景落地。
芯片、科研计算、生命科学……海量高性能算力是科技创新的助推剂,更多前沿探索,将乘“云”启航。

🔚



羊了个羊的“无准备之仗”:7天DAU破亿神话背后


2023,一起奔赴更大的世界!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存