元宇宙计算:将发展新的计算形态,催生新的计算架构
原创 高效能服务器和存储技术国家重点实验室首席研究员
叶毓睿
元宇宙为何会出现?
从目前所处的初期看,元宇宙是以区块链为基础,虚实融合的,由创作者驱动的,共创、共治、共享的数字新世界,简称多维共创互信网。那么,从中期看,则是创意、思想、意识的协作网络。
元宇宙之所以会出现,一方面是在为了满足个人不同的需求,体验不一样的人生。因为在物理世界中,人往往受制于环境、社交、经济等因素难以去体验,而元宇宙则可以摆脱这些因素,成为很好的新试验田。另一方面是为了全人类生存和发展的需求,目前存在着人类快速繁衍和地球资源有限的矛盾,除了向外太空的探索之外,向内探索也是一个能较快解决的方式,因此像云计算、大数据、物联网、人工智能、区块链、交互技术、5G,以及元宇宙,能够帮助优化地球的资源配置和降碳增效,实现物尽其用,人尽其才。
元宇宙也是当下年轻人和孩子们极为关注的领域。据统计,Y世代(1980-1995年出生的)人口数是17亿,Z世代(1995-2009年出生的)是25亿,Alpha世代(2010年后出生的)是7亿,占世界总人口的比重超过60%。如果我们不去积极影响和占领这一网络空间,就会被其他力量所占领。从未来竞争的形态来看,慢慢会转换成科技、教育乃至文化、创意以及价值观的较量。元宇宙可以给个人、组织和国家带来更多的可能性。
如何建设元宇宙?
那么,元宇宙该如何建设呢,有志于搭建元宇宙这座“通天塔”的朋友们该从哪个“脚手架”开始入手?
我们以《头号玩家》里的“元宇宙”也即绿洲(Oasis)为例,设想一下要满足主角们如韦德/帕西法尔、萨曼莎/阿尔忒密斯实现购物、驾驶、舞蹈、训练、游戏、交友、听音乐、看视频、查档案等场景,从应用场景一层层往下探索并思考,建设元宇宙需要什么?
我们先来观察《绿洲》这一科幻电影里的元宇宙:
●首先需要戴上VR头显,穿上体感服装,让物理人能够以数字化身的方式加入到绿洲;
●绿洲里的不少物体、环境如建筑物,和现实世界相仿;也有完全不一样的,是虚拟世界所特有的;
●每个化身都有自己的身份,进出一些特殊的场所的时候,还要查验身份;购买道具或服装的时候,需要有虚拟世界里流通的货币;
●丰富多彩的场景是需要被创作的,无论是物理人还是物理人通过其数字化身,或者是AI创作出来的;
●获取钥匙按照一定的比赛规则进行;整个绿洲也有规则,例如大反派IOI公司的老大也不能为所欲为。
我们发现,元宇宙里的人、物(包含“货”,如NFT)、场景和事件(发生历程、生命周期等),都是虚拟的,是在虚拟空间里存在或发生的,在现实的物理世界中是并不存在的。那么,这个虚拟空间从元宇宙“荒漠”或者“平地”开始到精彩纷呈的元宇宙“城市”甚至“世界”,能够长期持续运行着,又是如何做到的呢?简单说来,就是来自物理世界的IT基础设施的各种算力源源不断的输入,这涉及到物理世界的各种IT软件硬件和算法。
我们认为这必须有元宇宙十大技术(如下图),来支撑各种集成应用,乃至工业元宇宙、教育元宇宙、城市元宇宙、乡村元宇宙、文旅元宇宙、会展元宇宙等。
1. 五大地基:计算技术、存储技术、网络技术、安全技术、AI技术。
2. 五大支柱:交互与展示的技术、数字孪生与数字原生技术、创建身份系统与经济系统的技术(含区块链)、内容创作的技术、治理技术;
图2-1:元宇宙十大技术
如何分析元宇宙产业?
目前我们仍处于元宇宙早期的阶段,分析元宇宙产业,可以简单地按照十大技术来分类,每项技术其实都对应着较大的产业链。中长期时,元宇宙会成为创意、思想、意识的协作网络,到那时,元宇宙产业的分类会围绕着创意的产品或者服务,根据生产、流通、销售和服务等环节来划分。
本篇文章重点讨论和分析元宇宙的计算技术,也是笔者第一次尝试将元宇宙相关的计算形态进行归类和介绍,以期能抛砖引玉,吸引更多更资深的专家一起交流、完善。我们知道,地球上人类的发展,需要直接或间接消耗煤、石油、天然气、太阳能、风能、水能等能源。元宇宙的发展也是一样,需要人类物理世界源源不断的提供“算力能源”。宇宙是由能量构成的,同样的,元宇宙的地基则是由来自物理世界的算力构建的。如果把存储比作元宇宙的“土壤”的话,我们可以把计算比作元宇宙的“能量”或“阳光”。如同物理世界中的发电厂、各种电池一样,元宇宙的计算也会以多种形态出现,大体来说包括了如下图的,发生在云、边、端和数据中心,以及去中心化计算和空间计算。
1)云计算。包括数据中心的私有云,以及超大规模数据中心承载的公有云,如AWS、AZURE、Google云、阿里云、腾讯云等,提供了便捷、易扩展的计算资源使用方式,帮助实现类似AIGC、大数据分析、云渲染、备份归档等任务;
2)边缘计算。将耗费计算资源和带宽的任务运行在边缘计算节点(PC或服务器等)或者边缘计算数据中心上,例如无人机三维重建所需的云平台,在线游戏所需的不同区域的服务器或集群,在线影视所需的CDN,VR高沉浸感场景如HTC Vive PC VR,或者索尼的PSVR所需的PC机;
3)端计算或终端计算。如触觉手套、VR/AR眼镜、无人机吊舱内嵌有AI芯片的摄像头、风力发电的叶片等智能终端所包含的计算。
4)去中心化计算。主流的有类似Ethereum全球公链等,也有类似SETI@Home这种全球规模最大、影响范围最广的分布式计算项目。
5)空间计算。如同元宇宙一样,空间计算是一个集成多种技术相关的概念,目前尚未有一致认可的定义。空间计算有助于人类与数字世界的交互和展示方式,从二维平面转到三维立体。其意义重大,意味着用户从第三人称的在线旁观,将渐变为第一人称的在场互动。
元宇宙面临怎样的算力挑战?
元宇宙所面临的计算领域的挑战巨大。Intel高级副总裁Raja Koduri曾表示:元宇宙可能是下一个主要计算平台,我们今天的计算、存储和网络根本不足以实现这一愿景,要达到《雪崩》(元宇宙的英文词metaverse来源于这本科幻小说)中的元宇宙体验,我们必须在相同甚至更低的能耗下实现一千倍的算力增长。然而,众所周知,因为受限于集成密度、效率性能以及功耗、散热的制约,摩尔定律放缓,当前晶体管密度每年增加不到3%,如下图:
与此同时,AI计算需求猛增,根据OpenAI分析,自2012年以来,6年间AI算力需求增长约30万倍,如下图:
摩尔定律的放缓,使得计算技术的发展不再仅仅依靠通用芯片在制程工艺上的创新,而是结合多种创新方式,例如根据应用需求重新审视芯片、硬件和软件的协同创新,也即思考和探索新的计算架构。才能满足日益巨大、复杂、多元的各种计算场景。
1.云计算(含数据中心相关的计算)
云计算(含私有云)已经成为主流的计算形态,本文不再赘述。这里举一个例子,3D科幻电影《阿丽塔:战斗天使》是实现了虚拟人物和真实形象互动的经典之作。阿丽塔的头上有13.2万根头发,脸和耳朵上有近50万根“桃色绒毛”;一个虹膜有830万个多边形,运用了900万个像素;每一帧钢铁城的渲染时间超过500个小时;整部电影的特效耗费了数据中心的三万台电脑,总计4.32亿小时(相当于4.9万年)制作出来。
除了在数据中心端,还要考虑终端用户的体验,例如我们使用了Blender在数据中心完成了图形的渲染,最终还需要通过Unity或者Unreal等游戏引擎在终端设备进行展示。
2.端计算
Meta Reality Labs的首席科学家迈克尔·亚伯拉什(Michael Abrash) 在2021年举行的IEDM 2021大会中提出了一种可以满足真正AR眼镜形态需求的计算架构思考。重新思考计算架构的核心原因是行业需要大幅降低设备的功耗,从而满足续航和散热要求。有证据表明,最耗能的计算操作是数据传输,亚伯拉什指出:“对于诸如如轻型AR眼镜这样的低功耗应用,尽可能减少数据传输量至关重要”。因此他认为,分布式计算架构的起点可以从AR眼镜感知用户周围世界所需的众多摄像头开始:在通过耗能大的数据传输通道仅发送最重要的数据之前,由摄像头传感器本身进行一定的初步计算。
为此,Reality Labs推出Domain-Specific传感器(摄像头),它专为AR眼镜的低功耗高性能需求而设计。该传感器采用一组所谓的数字像素传感器,其能够在三种不同的光照水平下同时捕获每个像素的数字光值。每个像素都有自己的内存来存储数据,并且可以决定报告三个值中的哪一个,而不是将所有数据发送到另一个芯片来完成这项工作。
亚伯拉什指出,这不仅降低了功耗,而且大大增加了传感器的动态范围(它能够在同一幅图像中捕捉昏暗和明亮的光线)。为了展示动态范围的提升,他分享了原型传感器拍摄的样本图像,并与典型传感器进行了对比,如下图:
在左边的图像中,明亮的灯泡导致摄像头无法捕捉大部分场景。而采用了Domain-Specific传感器的,右边的图像不仅可以看到灯泡灯丝的极端亮度细节,而且可以看到场景的其他部分。
Meta希望更进一步并在传感器执行更复杂的计算:眼动追踪和手部追踪等XR工作负载的深层神经网络分割和分类的浅层部分可以在传感器端实现。
3.去中心化计算
早在上世纪90年代,就有了去中心化计算的项目。例如加州大学伯克利分校的SETI@HOME,参与者自愿使用他们的家用电脑为寻找外星生命提供算力。近十年来兴起的区块链,包括智能合约和数字货币,为这种共享计算资源池提供了激励的经济模型。资源未被充分利用的 CPU、GPU等多种算力芯片的所有者,可通过参与项目,“出租”算力获得报酬。这实际上是IT基础设施硬件资源的一种三权分置的模式,运营算力硬件资源的人,未必一定要拥有这些硬件资源,也即成为所有者。类似滴滴顺风车、Airbnb的运营模式,这样能降低运营的门槛,极大地促进社会资源的充分利用。
4.空间计算
空间计算是新一代计算,需要结合三维模型、建筑动效和光效、室内定位等多种技术。空间计算能用到许多和室内空间定位、管理、呈现相关的应用场景中。
例如,数千人的会议,通过每个人身上的传感器或其他设备,实时追踪其停留位置、时长,同步到数据库里,以及记录两人或多人在小范围交流情况;几天下来,所需记录、同步并分析的数据可能超过千万,甚至过亿,产生了巨大的计算需求以及存储和海量检索的需求。
今年北京冬奥场馆的智慧运营,实现了对场馆人员、流量、活动轨迹、活动区域以及密接的跟踪,有助于精准防控,降低成本。据海淀区副区长林航介绍,海淀区聚焦科技防疫、智慧服务、超高清显示等多个领域,利用奇岱松空间计算操作系统,构建空间感知网络,建立智慧场馆运营中心,让首都体育馆、五棵松体育中心的主竞赛馆实现了对工作人员安全社交距离的实时计算分析,使得冬奥服务的保障工作更精细、更高效、更便捷。如下图。
5.计算机架构的未来趋势
图灵奖获得者John Hennessy 和 David Patterson在2019年发表文章《计算机架构的新黄金时代》,介绍了计算机芯片的发展历程,以及架构的未来趋势。文章很长,核心观点有三条。
1)登纳德缩放定律结束、摩尔定律衰退,而阿姆达尔定律正当其时,这意味着低效性将每年的性能改进限制在几个百分点。获得更高的性能改进需要新的架构方法,就是DSA(Domain-Specific Architectures,特定领域的体系架构),DSA将成为未来十年甚至更长时间,计算机体系架构的趋势。
我们看到,芯片开始出现百花齐放的格局,各种异构计算的专用芯片不断推陈出新,就是DSA趋势的体现。例如英伟达GPU和DPU、Intel IPU和Xe GPU、Google TPU;国内的寒武纪、燧原、昆仑、天数、壁仞、鲲云、算能等AI芯片。
2)第二个机会是开放的 ISA(Instruction Set Architecture,指令集合结构),要创建处理器领域的Linux。
我们发现,市场出现了RISC-V、英伟达NVDLA和IBM POWER的等ISA。
3)硬件的敏捷开发成为可能。借助电子计算机辅助设计(ECAD)等工具,使得敏捷开发成为可能;这种更高水平的抽象增加了设计的重用性。从设计交付到返回芯片原来需要几个月时间,现在可能四周左右。
敏捷硬件开发的最内层是软件模拟器,第二层是 FPGA,第三层使用 ECAD 工具生成芯片布局,第四层被处理器设计者称为Tape In,第五、六层分别是Tape-Out和Big Chip Tape-Out;前四层支持四周冲刺。如果设计者的目标是设计一个较大的芯片,那最外层的成本将非常高,但体系架构设计者可以用很多小芯片来阐述很多新想法。
硬件重构和软件定义意味着什么?
DSA也即特定领域的体系架构,其实意味着以往围绕着通用芯片CPU的硬件组合方式需要调整,也即硬件重构。
如果说,软件定义的方向是一切皆服务,那么硬件重构的方向则是一切皆计算机(XaaC)。然而硬件如何重构,需要遵循着基本的原则;计算随需求、技术极限而变。例如,早期的信息化,企业或政府运行财务信息系统、OA办公系统等软件,单台服务器基本就能满足;然而,随着互联网的兴起,从门户网站到搜索网页和Email系统,成千上万的用户发出的请求,实际上形成了大的场景需求,我们可以把Gmail(Google的Email系统)看成是一个逻辑上,云数据中心级别的软件,因此在2009年Google提出了“Data Center as a Server”(数据中心即计算机)的理念,将CPU、内存、存储等硬件资源从服务器解耦出来,实现池化,站在数据中心的视角,实现资源的全面管理和调配;不仅如此,机房、散热、电源、管理等也需站在数据中心全局视角,做相应的优化。
随后FaceBook、微软、AWS、西部数据等国际巨头也在不断的探索、实践,与之相关的软硬件技术、新协议、新标准不断出现。2011年,Facebook将自己在数据中心的设计和成果在业界分享,并联合Intel、Rackspace、高盛和Arista Networks发起全球首个数据中心级的开源项目:OCP(Open Compute Project,开放计算项目)。
2014年,浪潮在Inspur World (浪潮技术与应用大会) 上,提出将分三步推进融合架构产品的开发:
第一代硬件特征:服务器即计算机;软件特征:虚拟化以及管理。
第二代硬件特征:机柜即计算机;软件特征:软件定义的数据中心。
第三代硬件特征:数据中心即计算机;软件特征:业务驱动数据中心。如下图。
并相继推出了SmartRack、InCloudRack、Smart Data Center等新型计算机形态的融合架构。融合架构从1.0到2.0,已经实现了存储资源和异构计算资源的弹性组合。融合架构3.0阶段,通过连接、池化和重构的技术,实现不同计算资源的协同能力,通过软件定义实现业务自动感知和资源自动重构,使计算的性能和效率大幅度地提升。
一切皆计算机(XaaC)可以拓展哪些场景?
1.数据中心即计算机
数据中心即计算机,包括通过硬件重构实现资源池化。CPU与GPU、FPGA、xPU等各种加速器将更加紧密结合,利用全互联NVSwitch、CXL、Open CAPI等新型超高速内外部互连技术,实现异构计算芯片的融合;CPU之间可以通过池化融合的方式实现灵活组合,可以根据业务场景动态形成1路到多路多种计算单元;异构存储介质,如NVMe、SSD、HDD等则通过高速互连形成存储资源池。在计算和存储资源池中,除了传统CPU、GPU等,还可以应用更多新型计算芯片、存储介质和互连技术,进一步提升数据中心的处理能力。当前正在探索的 DC-SCM(数据中心安全控制管理模块),定义了一种与主板解耦的安全控制管理模块,能够简化主板设计,降低主板设计难度,节省设计和验证时间,利于新一代计算硬件能够伴随着芯片的迭代,快速向市场推出。
软件层面,则通过软件定义,在可重构的硬件资源池基础上,通过灵活的组织,将不同的资源池组成专业的服务器、存储、网络系统,并实现资源的高效管理和调度以及数据在池化资源的灵动流转。当AI与软件定义结合后,赋予了软件定义更高级的含义。从业务上,实现了基于业务特征感知的智能资源调度,让合适的资源在合适的位置去执行合适的任务,就像我们说的让合适的人去干合适的事一样。从管理上,实现了智能化的运维,也就是智算中心的无人巡检、故障自愈等。
软件定义一个典型的趋势是软硬件协同设计,由专用芯片、FPGA处理更多的业务负载,由软件进行更智能化的管理和调度。例如,基于FPGA和NVMe组成资源池,以硬件辅助虚拟化的方式为虚拟机实例提供接近硬件性能的计算、存储、网络功能,性能损失从传统软件模拟方式的50%降低到1%左右,相同条件下可以百倍加速AI作业效率。
OCP在2019年6月提出了Open Composable API的草案,探索开放可组合架构,将CPU、GPU、FPGA、内存、闪存盘、机械盘都从服务器里解耦出来,通过数据交换网络、内存交换网络的协助,实现数据中心级别的池化,用软件定义的方式实现资源的管理和调度。如下图。
相关的前沿技术还有CXL高速互联、NVMe Over Fabric等,全球有许多巨头正在探索,如Intel、Marvell、三星等。
2.机柜即计算机
需要注意的是,并非所有用户的计算架构、服务器形态都朝着数据中心即计算机的方向发展,因为体量不同、场景不同,这种努力带来的收益是不一样的。数据中心即计算机更适合于互联网、云计算巨头所需的超大规模数据中心。对于第二梯队及以下的互联网、云计算公司,以及金融、能源、制造业等公司,机柜即计算机可能更加适合,因为无需对IDC机房做大规模的调整,很多组件能够复用,从而受益于大规模生产标准件带来的低成本优势。
3.设备即计算机
在IT基础设施领域内,不只是宏观(超大规模,如数据中心级别)、中观(机柜级别、服务器级别),还有微观(组级和设备级别),都有类似的趋势。当我们观察服务器的各个设备,如SmartNIC、Nvidia DPU、Intel IPU等;还有SSD(包含了主控、Firmware、颗粒)时,你会发现它们也是一台精简版的,浓缩型的小小计算机。也即设备即计算机。
硬件重构的方向是一切皆计算机这个趋势不仅适用于IT基础架构,还适用于所有的智能制造领域,如meta(原名FaceBook)的触觉手套,可以看成是手套即计算机。根据场景的需求不同,我们会发现,在不同的层次上,物体都有发展成为智能体(也即“计算机”)的趋势。小到手环、眼镜、音箱、鞋子、衣服、杯子;中到电灯杆、交通灯、道路;大到楼宇、机场、城市乃至地球,都会朝着“计算机”(也即智能体,大的可视为复杂巨系统)的方向发展。背后的原因是,更快的响应,更低的成本;更懂人类(个体、组织,乃至国家和全人类)的需求,为人类提供更灵活多样化、更便利的服务。下面举两个例子,分别是:叶片即计算机、吊舱即计算机。
1)叶片即计算机
GE有个风电部门,把传感器安装在每一个风机叶片上,通过对风机转速、风力、温度、湿度、环境等近百种数据的采集、分析,风机能够自己进行涡轮叶片转速的调整,不需要把数据传输到数据系统,通过桨片的角度调整能够增强风力,能够增加风力4%。这就是软件定义制造,换句话说,风机即计算机。
2)吊舱即计算机
在矿山、农场、建筑场地等三维建模的过程中,多数解决方案是通过无人机下面的包含若干个摄像机的吊舱,拍摄大量的照片或影像,再返回建模的工作空间去操作,一旦发现有些地方漏拍,或者拍得不够清晰,还需将带有吊舱的无人机再次派往场地补拍,需要耗费数小时。国内的空陆视觉,通过将吊舱内嵌AI芯片,可实时同步建模并输出图像,能够很快在作业场地感知是否需要补拍或者重拍,能够节省不少时间,提高效率。其实就是,吊舱即计算机。
3)摄像头即计算机
实际上吊舱即计算机本质上是指吊舱里面,内嵌了AI芯片的摄像头即计算机;另外,前面所属Meta XR眼镜,包含了带有计算能力的传感器,也是摄像头即计算机的一种类别。随着元宇宙的发展,结合物联网进行感知世界,使用AI算法改变世界的逐步深入,摄像头即计算机,或者摄像头所属系统即计算机,将如雨后春笋般不断涌现出来。
XX即计算机的例子,还能举出很多。总之,元宇宙计算,给我们带来巨大的挑战,将发展新的计算形态,如空间计算、去中心化计算;也将催生新的计算架构。为了更好的支撑应用场景,硬件重构的方向就是一切皆计算机。
参考文献:
朱嘉明:从现在到本世纪中叶,决定于Y、Z和Alpha世代——2022新年感悟
https://mp.weixin.qq.com/s/fDos29Zdlx5S-cW3pB3P5g
零壹财经:2022第一届中国数字科技投融资峰会
https://c.m.163.com/news/a/H9JRBK4105198086.html
海淀区高质量完成北京冬奥会期间服务保障工作
https://baijiahao.baidu.com/s?id=1725550342178018190&wfr=spider&for=pc
Meta为AR眼镜提出全新计算架构
https://blog.csdn.net/Urh3t1/article/details/124791049?spm=1001.2014.3001.5502
马修·鲍尔的元宇宙「九章算术」
https://zhuanlan.zhihu.com/p/398633284
未来十年计算机体系结构的历史和趋势
https://blog.csdn.net/Urh3t1/article/details/119745084?spm=1001.2014.3001.5502