查看原文
其他

为云而生又生于云中的芯片给我们的启示

唐杉 StarryHeavensAbove 2023-01-25

Google的TPU芯片专门为云端AI应用设计,可谓是为云而生。而TPU的设计过程又越来越多的利用了云的优势,可谓是生于云中。TPU所带来的创新,不仅仅是芯片架构,还反映在整个芯片研发的思路,方法,甚至是“文化”,而后者可能对整个产业都会带来更为深远的影响。


传统的芯片公司做芯片,目标是规模量产和销售,第一个风险就是芯片的规格不能满足市场需求,做出来也没用。有了规格之后,我们考虑的最多的就是成本(PPA和研发成本)和Time to Market,这让我们在做trade-off的时候束手束脚。如果不用担心难伺候的客户,不用担心规格不对,而成本和ToM也不是最重要的因素,我们是不是终于可以大展拳脚了呢?


我们在研发一款芯片的过程中,从架构设计到物理实现,需要很多步骤,其中的很多工作,比如仿真验证,需要大量的计算资源。而在现实中,计算资源总是有限的,我们要么Delay,要么放弃对验证质量的追求。如果计算资源是“无限”的,我们还需要做这种无奈的取舍吗?


当看到[1]中的如下文字,我一下就想到了上述两个场景,进而非常理解Daniel Nenni所形容的在Google做芯片就像“小朋友进了糖果屋”的感觉。

“A friend of mine now works for Google designing chips. Can you imagine what it is like designing chips for a company that does not sell the chips (cost and delivery are not the driving factor) and has a massive cloud at their disposal? To put it bluntly my friend was like a kid in a candy store. He can now design a much better quality chip without having to worry about lengthy simulation and verification runs. To be clear, you can bet Google chip designers get silicon right the first time, absolutely.”


Google TPU我介绍的很多了(Google TPU 揭密Google TPU3 看点)。2017年Google公布了第一代TPU的架构,之后基本是每年更新一代,可以说迭代速度非常之快。大家看TPU的论文,都会感觉它的架构和设计似乎并不复杂,但我相信离开了Google,没人能做到类似的成功。因为TPU的设计反映的是Google在Cloud/Data center软硬件体系上的强大经验和实力,它放在Google Cloud上就是合适(AI芯片架构的争论真有意义吗?,之前的这篇文章也是强调这个观点)。我最近的文章讨论了Tesla的FSD芯片(多角度解析Tesla FSD自动驾驶芯片),它的前提也是这个芯片就是自己用的,不用考虑别人的需求。在这种情况下,我们来对比评价它的架构设计就显得没什么意义了。Google不只做TPU,还有不少芯片项目。Apple早就把自研芯片作为最核心的研发了。其它能数得上的科技巨头也无一例外的都在自研芯片,很多现在还不是巨头的系统公司和应用公司也开始自研芯片。这个趋势会给整个半导体行业带来很多变化,商业模式,生态和产业链,技术趋势,研发模式,设计方法,甚至是”文化“。

而芯片研发模式的变革就引出了本文的第二个问题:云上的芯片设计。还记得在17年我参加阿里云栖大会的一个讨论,被问就是关于在云上用EDA工具做芯片的问题。应该说,当时这种模式不论是在技术上还是商业模式上都还在探索阶段。到现在再回看,这个探索到实用的过程似乎并不太长。在今年的DAC(Design Automation Conference,EDA界的盛会)上,Google和eSilicion有个联合talk,”Doing EDA in the Cloud ? Yes, it’s possible !“[2]。”We often hear that the EDA industry is not yet ready for the cloud, usually due to objections about the nature of cloud-native technologies. However, the cloud seems like the ideal place to run chip designs: flexible compute resources available on demand, nearly infinite storage, and a pricing structure that avoids costs for idle resources. “可惜我没有看到具体的材料(欢迎读者留言分享相关信息)。

实际上,Google在去年DAC上就做了名为”Google: Moving EDA to the Cloud - a Google-on-Google story“报告(这个可以在网上找到)。当时就提到,在做TPU的过程中很自然的想到了利用云资源的优势。其实也不难理解,芯片设计中大量的时间是花在仿真验证上的,而这些仿真验证又很容易并行执行。如果能在一段时间内提供大量运算资源,就可能大大减少总的验证时间,或者在有限时间内做更充分的验证。由于这种需求是突发性的,一般的芯片设计公司不可能自己建立这样的能力来满足短暂的峰值需求。但对Cloud来说,这就不算问题了。所以才说Google可以在需要的时候把”无限“的资源投到芯片设计,实现快速迭代(他们的原话是”敏捷开发“),同时更容易实现高质量验证并保证一次投片成功。下图是Google Could支持芯片验证的架构,其中就明确提到了”Unlimited Simulations Running in Parallel“。

source: Google blog

当然,Google这么做可以说非常自然,但对第三方芯片公司来说,要利用这样的平台,还需要考虑很多因素的,比如数据安全的问题。上述talk中也提到了这个话题,认为安全性本身就是云厂商重点关注的问题,它们在安全性上的投入比一般公司大得多,因此在云上的安全性比本地的安全性更高。芯片项目的数据和IP是芯片公司的最核心资产,大家对安全性的关注当然很高。不过随着这种模式越来越完善,相信这些障碍都是可以解决的,剩下的可能真是”文化“的问题了。”云上做芯片“可以算是芯片研发模式的重要创新,沿着这个思路,也可以引出很多有趣的话题,有机会我们进一步讨论吧。

最后,在Daniel的文章中,他提出了一个很有意思的问题,大家可以也思考一下。

“For new chip design companies the cloud is an easy decision. For the older fabless companies that have years and years of non-cloud culture and non-cloud infrastructure it is a very difficult change. The question I have is how are they going to compete with the natural born cloud chip designers?


此外我再加个题目:”独立的芯片设计公司怎么和Google们竞争?


Reference:

[1] Daniel Nenni, "56thDAC Las Vegas Trip Report", https://semiwiki.com/events/259652-56thdac-las-vegas-trip-report/

[2] David Marshall, Guilhem Tesseyre, "Doing EDA in the Cloud ? Yes, it’s possible !", DAC 2019


推荐阅读  

专用处理器设计

AI芯片的“冷”与“热”

多角度解析Tesla FSD自动驾驶芯片

后通用芯片时代:专用芯片兴起背后的经济学

AI芯片0.5与2.0

从AI Chip到AI Chiplet

在体系结构黄金期,ESL设计方法学能否“焕发青春”?
AI/ML/DNN硬件加速设计怎么入门?

AI芯片在5G中的机会


题图来自网络,版权归原作者所有

本文为个人兴趣之作,仅代表本人观点,与就职单位无关


长按二维码关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存