查看原文
其他

Google Fellow解读:分布式计算的第五个时代

常华Andy Andy730
2025-01-01
Mark Papermaster
CTO and EVP

AMD

Amin Vahdat
Engineering Fellow
VP/GM of Machine Learning, Systems, and Cloud AI

Google Cloud


Mark Papermaster

Amin,这次对话我期待已久,因为我们不仅有过合作机会,你还以杰出的客户和合作伙伴形象给我留下了深刻印象。更让我惊喜的是你对行业的深刻洞察力。我读过你的博客,尤其是你在华盛顿大学关于分布式计算五个时代的演讲,深感共鸣,毕竟我也是一路见证了这些领域的变迁。回想在IBM的初入职场,正值分布式计算的第一时代,行业变革之迅猛令人叹为观止。你对这些变革的精准把握,尤其是分布式计算如何重塑我们的生活、工作和娱乐方式,让我由衷钦佩。

Amin Vahdat

你的职业生涯同样辉煌,从1982年起步,见证了无数历史性的时刻,并为之做出了卓著贡献。对我而言,回顾过去几十年的进步,总让人感慨万千。我个人的研究始于大约1970年代,仅仅五十余年,世界与技术便经历了翻天覆地的变化,这既令人难以置信,又充满敬畏,同时也让我时刻保持谦逊。

Mark Papermaster

确实如此,您提到的跨越式创新而非渐进式进步,正是划分这些时代的关键所在。从个人电脑与远程登录奠定基础,到互联网与移动计算的兴起,再到首个真正意义上的分布式系统与集群的出现,每一步都标志着巨大的飞跃。回想那些早期的大规模高性能计算,曾是国家实验室的专属的领域,而今其规模在Google等巨头面前已显得微不足道。

Amin Vahdat

1970年代无疑是个非凡的时代,那时的创新如同在空白画布上尽情挥洒。短短五年间,C语言、Unix系统、Intel 4004微处理器、图形用户界面、面向对象编程、激光打印、关系数据库、互联网的诞生与首次四节点连接等一系列划时代发明喷涌而出,至今仍是现代计算的基石。而过去五十年间的进步,更是建立在这些早期成就之上。同时,以太网作为连接全球数十亿设备的纽带,其重要性不可忽视。

Mark Papermaster

这些创新及其深远影响令人瞩目,而您作为其中的重要参与者,做出了非凡贡献。我尤其钦佩您在推动集群技术超越简单扩展方面的努力。对于许多人而言,可能不太了解,正是通过多核技术的利用和网络能力的扩展,我们才能维持摩尔定律所描述的每18个月晶体管密度翻倍的速度,构建出今日之集群。在深入探讨第五代分布式计算之前,能否请您分享一下对当前分布式计算格局的看法?特别是在过去几年中,您在构建满足Google内部及Google Cloud需求的真正横向扩展能力时,遇到了哪些挑战?

Amin Vahdat

确实,这是一段非凡的旅程。从1970年代起,真正的超级计算机开始走进我们的视野。而互联网无疑是推动人类远程访问这些强大计算资源的关键力量。那时,人们需要登录到这些体积庞大、价格昂贵的计算机上,通过文件传输协议发送数据,进行模拟和实验。由于数量稀少,整个国家可能只有几台这样的超级计算机,因此,网络成为了连接这些计算中心与人们之间的桥梁。

得益于摩尔定律带来的惊人技术进步,曾经的巨型超级计算机逐渐缩小到台式机大小。1982年左右,IBM PC的诞生标志着这一转折点。个人电脑开始普及,计算能力真正走进千家万户,人们无需再远程登录就能享受计算的便利。

随后,以太网等技术的发展让计算机之间能够相互连接,开启了客户端-服务器计算和分布式计算的新纪元。文件系统得以在多个计算机之间共享,个人计算机的性能也随着摩尔定律的推动不断提升。每过18到24个月,计算能力就能翻倍,这样的增长持续多次后,累积起来的提升是惊人的。

然而,到了2000年左右,这种简单的性能翻倍趋势开始放缓。尽管面临挑战,我们仍在努力提升单个CPU或核心的性能,并通过增加核心数来实现更强大的计算能力。这促使我们转向并行处理和集群计算,Google等众多公司和学术界都在这一领域取得了显著进展。

Mark Papermaster

这确实令人叹为观止。您所描述的这些技术进展,以及它们如何汇聚成推动2000年代以来技术发展的力量,尤其是与人工智能和机器学习算法的结合,对整个社会产生了深远的影响。这种交汇不仅预示了未来的发展方向,也为我们理解第五时代提供了坚实的基础。

Amin Vahdat

过去十年到十五年里,最令我感到不可思议的是,我们现在可以轻松地访问整个人类知识的宝库,而这一切都发生在手掌大小的设备上。这些设备所拥有的计算能力,远远超出了70、80年代的超级计算机。通过高速网络,我们可以随时随地访问音乐、电影、百科全书、研究论文等海量信息。这种数据的可用性和计算能力的结合,使我们能够开发出全新的算法,推动人工智能领域取得突破性进展。以前从未想象过的信息组织方式,现在正成为现实。

Mark Papermaster

您在博客中提到过“对计算需求永无止境的渴望”,我非常喜欢这个表述。我也常用类似的短语,它与我们现在所处的时代紧密相连,这个时代要求我们在所有领域都进行巨大的创新。我提出了一个“整体设计”(Holistic Design)的概念,即我们需要集合所有元素的力量。尽管摩尔定律的速度放缓了,但我们仍需新的半导体节点技术来推动发展。在每个技术转折点,这些新技术都能为我们带来最佳的设备性能和更高的能效。而我们需要以更创新的方式去整合这些技术。在AMD,我们采用了模块化和Chiplet的方法,这在行业中也很常见。但这不仅仅是硬件层面的构建,更是整个技术堆栈的建设,从过去硬件至上的时代发展到现在软件优先的世界。软件定义网络、软件定义存储以及软件驱动的堆栈建设,都是为了实现您所描述的那种可扩展性。

我很想听听您对这种无法满足的计算需求有何看法。我们知道,新类型的加速器是必不可少的。您深知算法的核心,在Google开发的芯片以及其他超大规模运算者所开发的芯片,都证明了这一点。我们行业不会停下脚步,AMD和其他公司一样,正在提供更多通用和ASIC能力。我很想知道,您对这种计算需求的持续增长有何见解,以及这对整个行业和新兴的芯片与系统创新意味着什么。

Amin Vahdat

当我们看似在解决网络搜索和信息检索这类极具挑战性的问题时,我们其实是在面对一个新的挑战——如果Google的所有用户每天都通过语音与我们的服务互动30秒,那将意味着什么?十年前,我们就意识到了这个问题:如果按照传统方式构建基础设施,那么支持这样的用例将需要十个Google的规模,即我们现有能力的十倍。我们意识到,传统的扩展计算、基于集群的计算、软件定义网络、软件定义存储等方法,虽然都是正确的设计模式,但面对语音交互这样的需求却显得力不从心。

因此,我们决定打造一种全新的计算机——张量处理单元(TPU),它专为执行推理而设计,能够高效地处理将人类语音转换为计算机可识别的文本的任务。从第一代TPU开始,我们已经发展到了第五代,不仅用于推理,还用于训练和服务。特别是2017年,Google研究人员在深度学习领域取得了Transformer这一重大突破,使我们能够组织大量信息并进行无监督学习。现在,我们可以在整个人类知识的基础上进行训练,并以规模化的方式提供服务。但随之而来的是巨大的计算成本,这些模型的规模每年都在以惊人的速度增长,计算成本也随之飙升。

谈到摩尔定律的力量,我从未见过如此惊人的增长速度。Mark,我相信你也会同意,这种对计算的需求简直令人难以置信,也迫使我们必须寻找新的方法来应对。

Mark Papermaster

面对这样的挑战,业界采取了多样化的应对策略。一方面,像TPU这样的专用加速器正在不断发展,它们需要深入的应用领域知识来推动。另一方面,通用计算也在不断进步。您认为未来是否会有一种加速器占据主导地位,而其他则逐渐消失?还是说这个领域足够宽广,能够容纳多种计算方法的共同发展?

Amin Vahdat

这是一个很好的问题,我也经常思考。在摩尔定律的全盛时期,由于计算机性能每18到24个月就能翻倍,而成本保持不变,专用加速器往往难以获得发展空间。它们的开发周期较长,可能无法在短时间内带来足够大的性能提升来与摩尔定律相抗衡。而且,它们通常只针对特定的工作负载进行优化。然而,在机器学习训练领域,情况发生了变化。我们的通用计算中有很大一部分工作负载都是为了机器学习而设计的。因此,加速器的使用变得更有意义,特别是在摩尔定律在原始性能提升方面不再那么显著的情况下。展望未来,我认为会有更多的加速器出现,同时通用计算也将在我们的基础设施中继续发挥重要作用。我们在通用计算方面已经做了大量工作,并且我相信在可预见的未来这种情况将会持续。

但我认为确实有许多其他类型的工作负载,非常适合加速处理。我们目前正在合作的一个领域就是安全与加密,这是一个公认的高强度数学运算工作负载,非常适合加速处理。因此,我认为这种加速化的趋势将会持续下去。视频处理则是另一个我认为极具加速潜力的领域。

此外,还有一个新兴且令人兴奋的领域,那就是数据分析和处理,它构成了我们工作负载的一大重要部分,也是许多公司和客户关注的重点。我认为这是另一个绝佳的加速机会。

而另一个优势在于,像AMD这样的公司,已经站在了前沿,我们现在见证了不同类型的通用计算的发展。换句话说,不再仅仅是每18或24个月推出一种新型CPU芯片那么简单。在同一系列内,尽管都基于x86等架构,但会有不同的变体,这些变体可能在内存带宽与CPU性能的比例、每个核心的最大性能与总核心数的平衡等方面各有侧重。这样,不同的工作负载就可以更加精准地映射到不同类型的通用计算上,这本身也可以视为一种形式的加速策略。

Mark Papermaster

我认为很多人并没有意识到您刚才所阐述的这一点。我想强调的是,十年前,如果你走进一个数据中心,你会发现计算方法是高度同质化的,主要依赖于一种处理器类型,比如x86处理器。这出于您刚才提到的那些原因,简化了优化过程。但如果我们现在还这样做,没有那些量身定制的处理器——无论是不同形式的CPU、定制化的CPU计算、像GPU这样的加速器,还是像TPU这样的专用芯片,我们将无法实现解决当前计算需求所需的效率。

接下来,我想讨论一个与此相关的问题。如果我们没有这种专门的计算能力,我们将如何应对行业中的能源挑战?

Amin Vahdat

感谢您提出这个问题,Mark。这确实是我非常关心的问题,也是Google整体战略的重点。正如您所知,Google承诺到2030年实现全天候净零碳足迹,这意味着不是通过碳抵消来实现零排放,而是要在全球范围内的基础设施中实现真正的零排放。这是一个既大胆又极具挑战性的目标,我们承诺会全力以赴。为了实现这一目标,我们历来关注一个我们认为相当不错的综合衡量指标,即如何评估我们的基础设施以及如何将工作负载高效地映射到硬件基础设施上。

我们称之为“性能与TCO之比”。性能反映了我们工作负载的特征,可以视为一个基准测试套件的结果。而TCO则涵盖了所有获取成本,包括基础设施、服务器、机架、内存、CPU、存储等,当然还包括电力成本,这既包括了为数据中心建筑供电的电力,也包括了实际运行和供电基础设施所需的电力消耗。Google一直在努力提高这一效率指标。大约20年前,我们引入了PUE(能效比)这一指标。

Mark Papermaster

现在这一指标已经成为业界标准的测量方法。

Amin Vahdat

确实如此。PUE实际上在询问一个问题:为了向服务器提供一瓦的电力,需要为整个数据中心预留多少瓦的电力?换句话说,就是计算机运行的电力传递效率有多高。当我们刚开始时,行业标准大约在2.5到3之间,意味着需要预留2.5到3瓦的电力,才能向服务器提供一瓦的工作能力,效率相当低下。但现在我们已经取得了显著进步,Google在某些地点甚至可以达到1.1的PUE值,其他公司也是如此。这为我们和整个行业提供了一个重要的基准,即电力利用效率。

如今,我们更加注重在电力正常化的基础上衡量性能,而不是简单地考虑性能与TCO之比,因为我们认为电力是一种宝贵的资源。因此,我们致力于在全球范围内提供最佳的性能与功耗比。这推动我们在各个方面进行优化,同时考虑电力供应情况、工作负载的日常和周期性变化以及更多因素。

我认为能源效率对你和AMD团队来说至关重要。你们开发了多款高效节能的CPU,我们对此深表感激。当然,我们的客户和我们内部也都因此受益。

但我认为,在确保我们持续保持对电力重要性和限制的警觉性方面,还有很多工作要做。

Mark Papermaster

我们非常感谢Google对能源效率的重视。在AMD,这同样是我们的根本原则。您提到Google在PUE方面所做的工作,以及你们积极参与和推动许多成为行业标准的工作,这确实令人钦佩。无论是Google发起的工作,还是竞争对手采取的不同方法,你们始终保持着开放和合作的态度,共同制定标准,这有助于整个行业的进步。在Open Compute等项目中,Google一直是领导者。我看到Google在安全性方面也树立了榜样,我们能够与Google、Microsoft以及现在许多其他公司合作,共同建立行业信任的基础。

在网络领域,同样存在着标准和合作的机会。Google的工作既具有竞争力,又注重在保持自身特色和推动整个行业前进之间找到平衡。

Amin Vahdat

这段旅程对我们而言意义非凡,我们在安全、网络、计算等领域的合作中收获颇丰。我们始终秉承开放理念,并积极推动其发展,事实上,我们是这一理念的践行者。在Google Cloud,我们始终致力于打造开放云,并身体力行。

简而言之,我们坚信开放是首要原则,唯有通过拥有最先进的技术才能引领发展并取得成功,而非依赖封闭或专有技术。在条件允许的情况下,我们始终致力于为客户提供标准化、经过深思熟虑的技术方案,真正为客户带来价值。

安全性就是开放理念的典型体现。我们坚信,每个人都将受益于可信、经过严格审查、公开验证的安全协议和安全硬件。因为即便是最小的疏忽,也可能被别有用心者利用,成为漏洞和攻击的入口。因此,合作对我们所有人来说至关重要,因为没有人能从安全漏洞中获益。

与各方共同推进这样的倡议,只会进一步增强我们所有基础设施的稳固性。正如我们之前讨论的,这些基础设施对于社会的重要性日益凸显。我常常称之为“社会基础设施”(Societal Infrastructure),确保这些基础设施的基础元素是开放的、由顶尖人才支持、经过验证且安全的,这对我们来说至关重要。

Mark Papermaster

这种坚不可摧的信任感,在拓展AI应用时显得尤为关键。未来,许多关键基础设施都将依赖于计算,而这种计算必须是值得信赖的。

这正是我们整个行业需要继续携手努力的典范。我尤为欣赏的是,在真正需要标准统一的领域,我们能够与竞争对手展开合作。这种合作所产生的深远影响是不可估量的。

Amin Vahdat

确实如此。我认为,我们应该共同努力,提升整个行业的效率和基础设施能力。而在基础层面,合作更是不可或缺,以确保我们能够达到最高水平的可靠性和安全性,以及其他各项关键指标。

Mark Papermaster

接下来,我想谈谈一个对我个人而言意义重大的话题。我有幸在这个行业工作了数十年,与众多才华横溢的人士共事。回顾这些经历,我深信文化是团队持续成功的重要基石之一。

积极的团队文化能够凝聚力量,激发创新,助力团队取得非凡成就。而消极的文化氛围则会导致截然不同的结果。我相信你对此也有深刻的体会。那么,你对文化的看法是什么?又是如何向你的开发工程师传达这一理念的呢?

Amin Vahdat

文化是至关重要的基石。我始终坚守并珍视那些我认为重要的价值观,这也是我多年的深刻体会,相信你也有同感。团队往往会根据领导者的言行来塑造自身行为,因此,我认为文化始于尊重——尊重彼此,尊重每一个人。

这是构建文化的起点。我希望身体力行,为团队树立榜样。同时,我认为成长型思维也是文化的重要组成部分。我经常反思自己是否拥有这种思维,也经常与团队探讨这个话题。回首过去,我意识到自己在职业生涯和生活的早期,曾有过将他人视为静态不变的倾向。但现在我深知,人是会成长和改变的。我自己就比五年前、十年前、乃至十五年前、二十年前要好得多。因此,我愿意给自己,也给身边的人成长的机会。

接下来,我想谈谈团队和集体的成长型思维与静态思维。正如你所说,我们都有幸加入了一些优秀的组织,但我也观察到了一种“村庄心态”(Village Mentality)的形成。人们往往认为自己的团队或组织是最好的,而对外界的评价则可能带有偏见。这种心态就像一种毒药,会阻碍我们的进步和合作。因此,我时刻提醒我的团队,要尊重并欣赏其他团队和同行的优秀之处。他们都是了不起的人才,致力于做正确的事情,很可能与你们一样有能力、一样努力。如果我们能从这一点出发,而不是被偏见和误解所左右,就能共同创造更加美好的未来。

至于如何传达这些理念,我认为最好的方式就是以身作则、言传身教。我会尽我所能为团队树立榜样,希望他们也能成为更好的自己。

Mark Papermaster

Amin,你今天分享的领导力见解真是太宝贵了。在与你不同团队的合作中,我深切地感受到了这一点。坦率地说,文化在AMD也扮演着至关重要的角色。事实上,文化是我们携手前行的基石。因此,我由衷地感谢你的分享。我相信,不仅仅是AMD,所有与你合作的行业伙伴都会对你深表感激。

再次感谢你今天的参与,这是一场精彩的讨论。你的深刻见解令人印象深刻,我满怀期待地展望未来。

Amin Vahdat

Mark,这次交流真的非常愉快。我在这个行业耕耘多年,而你更是资深前辈,我们都拥有独特的视角和洞察力。但坦白地说,即便是在经历了无数时代变迁的漫长职业生涯中,我对计算行业也从未像现在这样感到如此激动人心。这是一种发自内心的感受。换句话说,就潜力和即将实现的可能性而言,这种氛围中所蕴含的无限可能和即将到来的变革真是令人叹为观止。我对未来几年我们将共同创造的一切充满期待,那将是无比宏伟的蓝图。

-----

Source: https://www.youtube.com/watch?v=eQcfesQmZ4s


--【本文完】---

近期受欢迎的文章:

  1. 【Google Fellow】重塑计算:需求如何引领下一代基础设施变革

  2. Google Cloud AI平台及其基础设施

  3. Google:使用Cloud Storage统一分析工作负载数据

  4. Google下一代存储:为未来设计存储解决方案

  5. Google:如何为AI和分析工作负载定义存储架构



更多交流,可添加本人微信

(请附姓名/单位/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存