查看原文
其他

AI芯片的长征之路:挑战与机遇

徐凌杰 半导体行业观察 2019-11-04


前言:

笔者有幸受邀在六月初北京举行的首届亚洲AI硬件峰会(AI Hardware Summit Asia)上发表了开幕主题演讲,与全世界的AI硬件专家分享了我对行业的一些看法和想法。演讲以英文形式进行,原文记录在LinkedIn之后收到多位业内人士的推荐,例如Codeplay的CEO Andrew Richards就留言说,“This is a great article. Should be read by any AI chip company. Don't write your own AI framework and don't expect the whole AI ecosystem to switch overnight. Very true.”


特此感谢《半导体行业观察》协助合作翻译成中文,有机会让此文与更广大的读者见面。以下为主题演讲的全文记录。



早上好,女士们先生们,


欢迎来到中国,欢迎来到北京!


感谢Kisaco Research的邀请,非常荣幸能够在首届亚洲AI硬件峰会上发表开幕主题演讲。


当我在今年早些时候确定了“AI芯片的长征之路”这个题目的时候,我并没有预料到“长征”这个词现在会变得如此热门。纵观国际上最近发生的有关技术和非技术的事件,我认为现在有必要反思一下这些变化将如何重塑我们未来的世界。


很多人认为AI将从根本上改变每个人的生活,有些人甚至把AI比作“第四次工业革命”。我认为这种说法一点也不夸张,我也相信AI的进步最终会对新的世界秩序和格局产生重大影响。


计算能力是推动AI产业发展的关键动力之一,在过去几年我们已经看到了其非常迅猛的发展势头。然而,我认为我们还需要很长一段时间才能充分理解我们对此的真实愿景,并开发出各种能够真正满足我们需求的AI芯片。因此,我想在这里和大家讨论并分享一些想法,我们该如何应对当前的局面、克服挑战并探索新机遇。



在我们谈论AI芯片之前,我认为有必要回答这样一个问题:为什么现在是合适的时机?


想必这里的绝大多数观众都非常熟悉摩尔定律的即将终结:


  • 首先,现如今单个晶体管的成本不再随着更先进的制程而下降;

  • 这导致CPU每年的性价比改进率从本世纪初的48%下降到最近的个位数;

  • 更糟糕的是,拥有尖端制造能力的晶圆厂数量也从20年前的25家减少到当今的寥寥数家;

  • 由于良性循环无法持续,移到新制程的成本变得越来越高。


为了进一步论证这一趋势,我们看到从2016年开始,英特尔的固定成本已经开始超过了其可变制造成本部分,也因此放弃了长期以来的Tick-Tock战略,转而采用三步走的“制程-架构-优化” —— 这是为了延长固定成本摊薄周期而做出的必要妥协。


这种变革的影响是如此之大,以至于像你和我这样大多数普通人都能深切感受到通用计算的进步在放缓。正如我在幻灯片上所说的无形之手,它的本质是市场的供求关系。当这里的供应,即CPU的性能提升增长慢于对计算能力的需求时,这会造成数据中心实质上的“赤字”——对于像阿里巴巴这样的公司来说,云计算对计算能力有着巨大且持续增长的海量需求,那么对我们来说只有两条路可走:要么再去建更多的数据中心并购买更多的CPU服务器,要么去寻求那些更强大、更经济、更高效的替代品。


这就是为什么我想说,摩尔定律的放缓和通用计算的衰落实际上更像是一个经济问题,而不仅仅是一个单纯的技术问题(注:后通用芯片时代:专用芯片兴起背后的经济学)。专用硬件的兴起将能很大程度上缓解数据中心的”赤字“问题。



如果说智能手机是时代的必然,但iPhone的成功却是不可预测的;就像一片落叶,我们不知道风会把它吹到哪里,但我们知道最终它会落到地面上。


与许多大型互联网公司一样,AI在阿里巴巴遍地开花。近年来,无论是内部应用还是在阿里云上,我们都看到了对异构计算资源(主要是GPU)的强烈需求,而这种趋势也将会在未来相当一段时间内继续持续下去。但是在这里我们不禁要问,如果AI加速器是历史的必然,那GPU就是必然的选择么?


GPU很强大也很好用,但它也不是完美的:


  • 首先,它不是专门针对神经网络设计的,所以大量的无用面积(dark silicon)被浪费掉了;

  • 它目前既不支持物理资源切区也不支持真正的多租户,因此没有太大的灵活性用于提高云的利用率和实现真正的弹性;

  • GPU的驱动程序更像是一个黑匣子,最终用户缺乏主导权;

  • 最后但同样重要的是,无论皮衣教主告诉我们多少次“买的越多,省的越多”,GPU仍然价格不菲!


虽然GPU在生态建设方面远远领先于其他所有人,但我并不认为GPU是AI加速的最终答案和唯一选择,尤其是在推理领域,AI加速有许多利基市场需要专业化的服务。同样地,这个世界也需要更多的多样性。



正如我们看到的,AI在各行各业生根发芽并茁壮成长,那些真正在乎自己软件的人也正在考虑拥有自己的硬件加速器。


我在此要祝贺这里所有的AI芯片初创公司。你们在过去两年里突飞猛进,总共筹集了超过25亿美元的投资,非常厉害!来,让我们为自己先鼓个掌!


有幸在过去的两年里有机会和你们中的一部分人有过深入交流并有机会合作,很高兴能成为你们初创项目前进的一部分。然而,每一个派对都有结束的时候,随着帷幕逐渐落下,我不得不说,冬天已经要来了。



我说冬天要来了,有这么几个原因:


  • 首先,世界头两大经济体仍然无法达成表面上的共识,这对两个国家的诸多公司来说都是利空:中国公司将更难获得最新和最好的芯片设计技术;而另一方面,美国公司也有失去中国市场的巨大风险。这显然对双方都是不利的,也无助于缓解我们刚刚讨论过的数据中心“赤字”问题;

  • 在过去的几十年里,计算技术的进步占到了美国非农生产率增长的近一半之多。通用计算的放缓已经是坏消息,而数据中心“赤字”的扩大肯定会影响长期经济增长,并可能使未来的融资变得更加困难;

  • 即使我们把经济问题放在一边,只谈技术,我看到相当多的公司,他们的产品老实说只适合演示,而缺乏商业化的能力。有些只能跑一小部分的应用demo,而那些也往往缺乏对最终用户可感知的差异点;

  • 而另一个坏消息是,AI应用的创新脚步也在放缓,这将会影响AI硬件的竞争态势。我们可以看到GPU也在快速发展,要赶上这个移动的目标会变得愈发吃力。台下许多公司即将推出新一代AI硬件产品,我认为2019年对你们中的一些人来说可能是期中考试,对另外一些更像是期末大考


我夫人和我说过她第一天上法学院的故事——院长要求学生环顾四周看看谁坐在他们旁边,然后说,“你没必要记住这些人,这并不重要,因为你现在的许多邻座无法熬过未来的3年”。这是生活展现给我们真实的一面。我也真心希望你们中的大多数人明年还能有机会参加今天这个峰会。



这听了是不是很令人沮丧,不是吗?


在中国,当我们谈到困难的时候,我们总是说“危机背后往往蕴藏机遇”,这也就是为什么我们创造了“危机”这个词。就像英语里说的,“冬天来了,春天还会远吗”?



我想,我对AI芯片行业总体是乐观的,而其中最重要的因素在我看来就是中国(至少对中国公司来说)。


  • 首先是资本的力量,尤其是当AI和半导体已经成为了这个国家高优先级发展战略的背景下。虽然这可能不是发展一个行业最经济有效的方式,但我们可以放心,最终一定会有好的结果产生。我们将看到这个领域更多的独角兽从各种渠道获得更多的投资,他们自然会变得更强;

  • 其次,中国拥有比世界上其他大多数国家更多的AI适用场景——从电子商务到移动支付,我们可以看到,只要有足够的市场需求就会有相应的方案来满足需求,而中国已在这些新兴应用上早已领跑全球。同样地,这还是市场供需关系和看不见的手的力量。现如今,我们讨论计算机体系结构的黄金时代,为特定领域而做专用设计(Domain Specific Design)是实现差异化的重要手段。AI将继续以用例和场景驱动的形式发展。只要有足够的需求,AI和AI芯片在中国都将会有很好的发展前景;

  • 此外,市场规模巨大,大到足以养活许多公司,以至于他们可以搭建一个完整的生态系统甚至是供应链。以智慧城市为例,安防摄像头将为边缘和数据中心的AI加速系统带来大量数据和智能,这是一个巨大的市场。


总而言之,我非常看好中国的机会。我们有理由相信中国将继续在AI领域发挥重要作用,AI芯片将成为中国新兴半导体产业的主导因素和驱动力。通用计算的放缓为中国提供了一个巨大的历史机遇。



那么,我们如何抓住这些机会呢?当我和你们中的许多人讨论你们的产品时,总是被问到我是否能给你们一些建议。那今天,我想提三个建议:


  • 我的第一个建议是软件。在你们问我要建议之后最喜欢问的问题是,“你有多少软件工程师?”。我们敞开来说,对于大多数的AI芯片来说,就硬件设计的相对复杂性而言,它其实并没有特别的难。在我看来,很多公司,包括风险投资公司,过于注重硬件能力,而对软件往往投入不足。我想看到你们能招聘更多的软件工程师,然后我想我们就有了可以讨论软硬件协同设计的基础。

  • 我的第二条建议也是关于软件的。当今世界垂直集成是一个趋势,单独做好自己的软件是不够的,要做好被集成的准备。软件本质上是你和你的客户之间的界面和纽带,更好的AI硬件产品在实现基础赋能之外还需要能为客户提供解决方案。如果你想扩大潜在的客户群体,那真应该认真考虑与像阿里云这样的云服务提供商合作(如果还没有的话)。

  • 或许你也猜到了,我的第三条建议还是软件。我想敦促你思考如何在软件方面进行差异化,并让这些差异能让你的客户所感知,比如如何实现多租户,如何做一站式快速上线方案,如何同时在数据中心和边缘轻松部署。


我认为如何强调软件的重要性都不为过,对于软件的认知关系到你如何定位你的产品和你的公司。



说到定位,我们来谈一下战略的本质。这是Michael Porter所作的一张著名图表(我在商学院里最喜欢的图表之一),我认为它对当今AI芯片的竞争版图也非常适用。


一个公司可以针对多个细分市场做开发,但归纳起来其实只有两种真正的竞争优势:1)比竞争对手做到成本更低,2)或实现差异化


让我试着解释一下这个战略的本质并用例子来说明——比如说有公司来找我,“我的芯片具有非常好的perf/watt能效比,这就是我针对NVIDIA GPU的优势”。如果我们说同样的一块75瓦PCIe板卡形态的产品,那你的产品实际上就是在单卡上能处理更多工作,比如用1张卡替换2个GPU,这只是成本上的节省。如果我们从另外一个角度来看,比如你的芯片只有几瓦却能与一个75W的GPU性能等效,这样你就可以在一个新的维度上进行竞争了。继续用智慧城市场景作为例子,你现在可以用一个小型的机顶盒大小的设备替换掉一个大服务器,这样可以让AI变得更轻,更容易在在边缘场景落地,而我将这样的方案称之为相对于GPU的差异化


NVIDIA的GPU在软件生态方面确实走在了前面,这在于先发优势和多年的积累。我不建议你直接在左上角与NVIDIA竞争——这个象限不适用于小公司或新项目。同样地,我不认为你们大多数人或你们的投资者希望你们永远停留在右上角。


我鼓励后来者从特定的细分市场和特定的行业开始发力,并保持专注,这是实现成本效益和差异化的最佳机会。这也是为什么大多数公司从都是从推理芯片开始做,而非训练芯片。


如果过于野心勃勃,那么你可能会浪费宝贵的资源,最终陷入到“卡在中间”的困境中去。我有一个“卡在中间”的例子是那些看似巧妙的可变精度设计,而实际上每个应用对此的要求都是不同的且难以做到通用化。Flexpoint是一个很有意思的想法但最终却失败了——英特尔最终不得不放弃这个方案。遗憾的是,这让英特尔错过了很好的时机,浪费了先发优势。



从这个案例的教训总结一下,我想鼓励你多和你的顾客交流,不要闭门造车。作为一家芯片公司,不要梦想一夜之间就能改变整个软件生态系统。技术可以自下而上,而战略应该自上而下。了解你之所长,再设计与之匹配的战略。


  • 只有与客户交流并共同解决实际问题,你才能发现真正的需求,修复真正的问题,然后再反过来改进迭代你的产品。

  • 另外,因为这是一个2B的业务,请不要把资源分得太散。专心支持你的客户,最终你会得到你想要的回报。

  • 如果你想进入云服务市场,请尽早开始布局,并花费足够的精力将你的软件集成进去。



当了解了需求之后,我也希望你能更大胆一点。


  • 我鼓励你能大胆地去定义你的产品。我看到一些公司有非常扎实的技术,但他们在产品定义和规划方面过于谨慎,只是跟踪GPU或竞争对手。回到战略的本质,如果你只是一个跟随者或者一个GPU的简单替代品,那你只是在低成本而非差异化上竞争。很快,你就会发现很难向你的投资人证明你值得起你现在的估值。请不要浪费大好时机。

  • 我也希望你大胆地尝试新技术,无论是存内计算、类脑还是基于光学的解决方案,如果你能在某个领域达到十倍或者百倍的提升,然后再将产品商业化,那你就有机会脱颖而出,并实现差异化。要么干票大的,要么就回家(Go Big or Go Home)。

  • 大胆也意味着在提供基本的加速能力之外能主动往前一步帮助客户解决实际问题。



这是最好的时代,也是最糟糕的时代。现在是你展示自己潜力的时候,抓住机会筹集更多的钱,为冬天做准备,活下来才有继续战斗的资本。


要彻底解决AI加速的供需问题还需要很长的时间,只要你找到正确的方向,合理地利用你的资源,你就能成功。


我们正处在这样一个时代:优秀的产品可以快速地、非线性地实现增长。云就是你最好的朋友,如果你认为你的产品不错,欢迎来与我们交谈。


对于所有公司来说,AI和AI加速都是一个相对新的领域,我想强调的是,现在正是开始讨论并领导创建新标准的好时机。



AI基准测试(benchmark)是我看到的机遇之一。


我在去年推出了阿里巴巴的AI Matrix benchmark。我们希望我们的benchmark能做到开放和灵活,并且可以让测试评估AI加速器变得简单。它现在已经成为我们评估AI芯片的标准流程的一部分,你们中的许多人正在与我们合作——我也多次明确表示它是你们进入阿里巴巴生态系统的门票。我们的合作伙伴对此非常支持,如果你有兴趣与我们合作,非常欢迎下载试用一下我们网站上的公开版本并向我们提供反馈。


同样有着开放和快速迭代的理念,MLPerf是一个新兴的国际AI benchmark社区。阿里巴巴是早期的参与者,也从一开始就为社区在做贡献。我们正筹划在今年创建一个正式的组织MLCommons,我鼓励所有这里的公司,无论大小,特别是中国公司,参与进来并展现出你的技术能力和领导力。中国是AI应用和AI芯片创新的试验场(playground),要让世界听到你的声音,这样你也有机会参与到重塑世界格局的进程中去。作为MLCommons的董事会成员,我将非常乐意在茶歇期间与你分享更多相关信息。



所以,2019年是令人兴奋的一年,我期待看到更多公司发布新产品,并将AI Matrix和MLPerf结果报告带给我。我非常乐意与你们每一位进行合作。


行胜于言,我想看到你们能成功地做出芯片,亮出产品,show出benchmark的结果。



如果我们把AI芯片的旅程比作慢慢长征,那其中肯定会有起起伏伏。最后,我想以一句诗来结束我今天的演讲——因为我担心翻译会词不达意,所以我在这里直接使用中文。


“雄关漫道真如铁,而今迈步从头越。”


这句诗写于84年前长征路上的关键时刻,我认为它也很好地反映了今天我们所面临的局势。在AI应用和AI芯片的强力推动下,2019年对于中国半导体行业而言很可能就是一个新的起点。


总结一下:


  • AI芯片是历史的必然;

  • 这更是一个经济学问题,而不仅仅是一个技术问题;

  • 我们处在一个令人困惑的时刻,有必要未雨绸缪;

  • 无论如何,我看好中国的机会;

  • 我希望AI硬件公司能重新审视你们的策略,并能保持专注;

  • 对于中国的公司而言,你们应该振作起来,因为这很可能是一个引爆点 - 你不仅有很大的潜力和空间来引领创新,而且还能重塑世界的新秩序。


谢谢!


徐凌杰


阿里巴巴集团阿里云智能事业群总监。他的团队目前专注于AI架构与应用的软硬件协同。在加入阿里巴巴之前,他曾在NVIDIA、AMD和三星担任过多个GPU项目的高级管理和架构师的职位。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第1985期内容,欢迎关注。

推荐阅读


存储器将走向何方?

本土RISC-V生态建设的现状及挑战

Arm两次发声,重视与华为的合作


2018半导体行业资料合集 长期有效!


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

华为|三星|存储|射频|芯片创业|台积电|RISC-V|ARM


回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存