AI芯片的“冷”与“热”
参加AI硬件峰会,我和业界朋友聊了很多AI芯片相关的话题。总的感觉,AI芯片经过几年比较热的发展,现在似乎进入一个相对平静的阶段。不过,与其说是AI芯片“遇冷”,可能说产业更加“冷静”更合适。同时,AI芯片的热潮在这两年对于相关的产业链也产生很多积极的影响,把“热度”传导到了其它一些领域。
本文很多内容是闲聊的结果,如果引用了哪位朋友的话而没有说明还请见谅。
“冷”
参加过去年硅谷的AI Hardware Summit的朋友,普遍反映这次在北京的会议没有那么火了。这当然有很多原因,比如大环境下大家比较低调。即使只看AI芯片,进入19年之后,新鲜的话题明显少了。一位朋友是这么跟我说的,他在去年峰会之后就把关注的重心转到了5G,最近转回到AI芯片,好像也没错过什么。我想了想,似乎确实如此。从去年Habana发布芯片以来,今年只有Tesla发布FSD芯片(多角度解析Tesla FSD自动驾驶芯片)引起了广泛关注。一方面,我们看到的实质性进展(不管是指标上还是商业上)不多;另一方面,PR看的太多了之后,大家也更冷静了。
经过这两年的摸爬滚打,早期进场的AI芯片玩家,比如寒武纪,地平线,Graphcore,百度,Habana等等,基本已经有了第一代芯片,开始积极投入商用的尝试。而这个“落地”的过程,比芯片研发本身更具挑战,既是对第一代架构设计的试金石,又需要庞大的软件开发和客户支持的力量。虽然这些公司都在快速扩充这些力量,但客观上看商用的步伐并没有预期的那么快。同时,在下一代芯片的定义和设计上,大家似乎也冷静了很多。
从这次峰会的多个演讲可以看出,在积累了几年的经验之后,大家开始更深入的思考AI芯片架构和生态的问题。对有的问题大家给出了不同的答案,比如“AI芯片应该更专用还是更通用?”,在很多讲演者强调专用硬件的效率的同时,百度昆仑芯片的架构师欧阳剑就结合他们的研发经验指出通用性会越来越重要。除了不同的思考,很多讲演者不约而同的强调了软硬件联合优化的重要性,这也反映了大家已经逐渐从能够先保证功能的粗放设计过度到提高竞争力和差异性的精耕细作了。
软硬件联合优化,也是我写公众号以来探讨的一个核心问题,这里多说几句。其实这个词说起来简单,看着也很美,但实际操作还是非常困难的。先说一个非技术的挑战,软硬件思维方式的差异。这次峰会上,地平线的余凯博士在panel讨论上提到了一个管理上的难题就是软硬件工程师的思维方式的差异,很有意思。而在具体设计中要实现软硬件联合优化,最好是有同时具备软硬件知识和经验的工程师操刀,或者至少要求软硬件工程师能够理解对方在说什么,想什么。这往往需要一个相互培训和磨合的过程。即便如此,在一个团队中还有“话语权”的问题。而在AI芯片领域,不同团队中算法,软件和硬件的话语权分配是各不相同的。算法和软件强的公司,可能倾向于轻硬件(硬件架构和功能简单),而大部分优化在算法和软件层面完成。而硬件强的公司和传统IC公司类似,硬件架构和设计往往是中心,软件团队是围绕这个中心工作的。话语权对设计的影响不一定是坏事,比如Google的软件能力很强,TPU可以用一个相对简单的架构,既能快速实现又可充分发挥。但如果话语权在trade-off中产生畸形的影响,就很难找到一个比较合理的平衡点。相对而言,初创公司(团队)往往没有历史包袱,内部团队间交流成本比较低,在这方面有一点优势。
当然,软硬件联合优化的技术挑战也很大。简单来说,就是把软件和硬件优化放在一起考虑,会出现探索空间爆炸的问题。好消息是目前AI芯片加速的运算是比较有限的,这会很大程度上缩小探索的空间。另外就是我们可以通过一些自动化的方法来加速这个过程,或者解放工程师的劳动。这也是我和我的团队正在努力的方向,欢迎大家和我交流。还是那句话,有挑战的地方也意味着机会。个人感觉未来AI芯片的一个主要创新点也在这个地方。
我们再回到峰会的讨论上,另一个大家比较一致的看法是Compiler对于整个生态的重要性。这个问题我后面可能会专门讨论一下,大家也可以看看我之前的文章(Deep Learning的IR“之争”)。
总得来说,我更愿意把这段时间看作AI芯片“蓄力”的阶段,AI芯片公司能更加冷静和理性的思考自己发展;投资人和群众能够更冷静和理性的分辨什么是PR,什么是干货。(这里面应该也有我的一点点贡献吧。
"热"
"During the gold rush its a good time to be in the pick and shovel business."
- Mark Twain
AI芯片从大热过渡到“冷静”,是个正常的发展过程。而在这个过程中,AI芯片的热度也逐渐传递到了产业链中的其它玩家。AI芯片公司融到的大量资金除了烧在自己的工程师身上,也有很大一部分流入了这些供应商手中,比如流片和封测,IP,EDA工具,设计服务和其它服务。对有些供应商来说,AI芯片的热潮比较简单的反映在客户和收入的增加;而在一些领域中,它还带来了一些技术方向,技术趋势和路线图的变化。我们下面就主要看看后者。
AI芯片的热潮首先带火的是NoC(片上网络)技术的供应商。到目前为止,基本上主要的NoC IP厂商都已经被各大公司抢走了。NoC最早的热潮出现在十几年前,我的博士论文也和这个技术有关。NoC的产业应用则一直是个很小的生意,直到这轮AI热潮改变了传统的计算范式,数据流动的效率成了瓶颈性问题。其实这个挑战不仅对NoC是重大利好,对于存储接口,片间互联和网络技术都有更高的需求。Mellanox也可以说是个很好的例子。传统技术和标准,比如PCIe,Serdes,DDR,Ethernet,InfiniBand其标准演进和技术落地都在加速。而一些新的互联标准,比如Nvdia的NvLink,CCIX,Intel的CXL等等也是类似的情况。由于未来数据流动的需求还会持续增长,这部分应该会持续得到关注。
除了数据流的瓶颈,芯片的硬件的scale-up也给一些新技术带来了机会。由于目前对AI加速的基本硬件比较规则,可以比较简单的扩大规模。所以,一种技术路线就是充分利用片上资源的低成本和低功耗特性,尽量在一颗芯片上实现更多的运算和存储。这也导致芯片面积越来越大,极端的情况是wafer-scale的芯片(如何设计一颗40PFLOPS量级的AI芯片?)。在这个背景下,也出现了一些新的商机。
前一段时间,做in-chip monitor IP的公司Moortec希望我把他们放到AI chip landscape的图里面。我问他们和AI芯片有什么关系。以下就是他们的回答,其实是我上面所说的技术趋势的一个佐证:“in-chip monitoring is becoming an essential requirement on AI chips which are typically on the advanced nodes (16nm, 7nm & below). As you know AI chips are not regular ASICs and are usually dominated by an array of regular structures where there are often 100’s in not 1000’s of cores in a single die, being grouped of into clusters, the die sizes themselves can be quite large as well often 100’s of mm squared if not approaching reticle size. This all leads to thermal issues, supply issues (IR drop) and process issues in terms of PVT Corners. Optimizing temperature and voltage supply and identifying process corners using embedded in-chip monitoring subsystems can greatly improve the data throughput and computational performance of the design. Moortec's in-chip monitoring allows chip designers to save power, optimize performance, increase reliability and ultimately reduce cost and risk... ”
除了用更先进的工艺和更多的面积,另一条技术路线是用多个面积较小的die通过超短距离高速互联和多硅片封装技术在一个封装里装入更多的算力和存储。它的优势是可以避免单个硅片面积太大带来的各种问题(上面说的),还可能用比较廉价的工艺实现类似的算力,因此可能降低TOPS/$。这种技术最终的形态就是Chiplet(从AI Chip到AI Chiplet),在到达所谓的超级异构芯片之前,同构的多die互联目前进展比较快,应该会更早实现。另外,这个方向也会驱动封装技术革新的提速。
在0.5代AI芯片(AI芯片0.5与2.0)进入相对“平静”的阶段的同时,一些新兴技术的热度并没有减弱。光计算就是个很好的例子,从比较早开始的Lightelligence到刚刚宣布拿到比尔盖茨投资的Luminous Computing,受到的关注度也非常之高。这次还非常高兴的看到了Lightelligence的演示系统,感觉他们也在很扎实的向实用化推进。总得来说,这些新兴技术的落地时间可能会因为AI芯片的热潮大大缩短。
最后用这次峰会的Keynote,来自阿里徐凌杰的,“The Long March of AI Chips”中的一句话收尾吧。大家共勉。
在体系结构黄金期,ESL设计方法学能否“焕发青春”?
AI/ML/DNN硬件加速设计怎么入门?
题图来自网络,版权归原作者所有
本文为个人兴趣之作,仅代表本人观点,与就职单位无关
长按二维码关注