深度长文 | 元宇宙技术体系构建与展望
元宇宙 (Metaverse) 一词由前缀 meta(意为超越、元) 和词根 verse(源于 universe,意为宇宙) 组成,直译就是“元宇宙”,是建立在网络、算力和算法之上的平行于现实世界的数字化世界,可以看作是现实世界的延伸,预示着互联网未来的发展方向。元宇宙利用虚拟现实 (virtual reality, VR)、增强现实(augmented reality, AR) 和互联网 (internet)等技术,将现实世界投射到数字世界中。人们可以通过虚拟形象在元宇宙中搭建社交、生活、甚至经济系统,实现现实世界和虚拟世界的融合。
在过去很长一段时间内,元宇宙主要流行于科幻小说中,对于大多数人而言,这完全是个生僻词。然而,这个早在 30 年前就出现的概念却在2021 年受到极大关注,并掀起了一股讨论元宇宙的热潮。首先是 2021 年 3 月号称“元宇宙第一股”的 Roblox 公司上市。随后,英伟达等科技公司陆续宣布进军元宇宙。10 月全球最大的社交网站脸书更是将公司名改为“Meta”。11 月,韩国首尔市政府宣布,启动“元宇宙首尔”计划,打造元宇宙城市。我国上海、杭州等城市也陆续提出发展元宇宙的计划。元宇宙重新走进大众视野,2021 年也因此被称为“元宇宙”元年。
在智能时代,技术进步成为推动元宇宙发展的关键动力。当元宇宙概念重新进入人类视野后,我们需要“抛开现象看本质”,针对元宇宙的技术体系的形成与演化进行归纳和分析。这些原本各自发展的技术,在元宇宙的体系下进行交叉叠加发展,演进到当前的阶段。本文将元宇宙相关的人机交互、人工智能等多种技术归纳在一个技术体系下,对认识元宇宙发展的历史脉络和未来趋势具有重要意义。
1 元宇宙的概念
1.1 基本概念
作家尼尔·斯蒂芬森 1992 年出版的科幻小说《雪崩》中描写了一个命名为“元界”的世界,其平行于现实世界。元宇宙的最初概念就来自于“元 界”,一般理解为“超越现实世界之外的世界” (如图 1 所示)。
图 1 元宇宙的概念
元宇宙基于人工智能、区块链等技术,将现实世界的经济、社会映射到虚拟世界,构建了一套新的经济、社会系统。元宇宙作为“新的经济、社会和文明形态”[2],将彻底改变我们与时空交互的方式,形成在虚实两个维度上的新型生活方式。现在,元宇宙正处于不断演化、发展的阶段,还没有一个统一的表述形式。因此,不同的参与方针对宇宙存在多种表述,如表 1 所示。
表 1 元宇宙的相关定义描述
现实世界存在两大关键要素:生产资料和生产关系。实际上,尽管存在不同的认识和定义,元宇宙中的世界也是对生产资料和生产关系改造和重构。因此,和现实世界类似,元宇宙中的发展也符合人类社会的发展规律。在元宇宙中,复杂和多样化的人际关系也出现在虚拟数字人中,并能产生基于数字商品交换为基础的社会经济活动。
元宇宙的发展首先聚焦生产资料 (人、信息与技术) 的突破,然后通过生产关系 (人与人、信息、物品的交互) 的协作进行进一步发展。但是,在现阶段,元宇宙在内容生产、数字货币、交易规则等,有待进一步完善,真正元宇宙时代的来临仍有待时日。
1.2 元宇宙:作为技术与想象的交互过程
在对元宇宙的理解中,不同的机构突出了对某一种或几种技术的重视性。如脸书公司强调虚拟现实 (VR) 技术的重要性,而英伟达公司特别重视数字孪生技术 (digital twins)。虽然这些技术对于元宇宙的形成和发展很重要,但是并不能孤立地看待某种技术和元宇宙之间的关系,认为只要某个技术取得了突破,就能进入元宇宙,显然有失偏驳。
一方面,元宇宙的发展是一个过程,在某一时刻,构建元宇宙所需要的技术并不是特定的。如目前 VR 被认为是元宇宙相关技术中的重要技术,但被公认为目前最具有元宇宙特征的 Roblox 公司的产品中并没有用到 VR。另一方面,从功能的实现来看,元宇宙需要多种技术的交叉融合。如现在VR 技术发展的一大难题就是降低眩晕感,这就需要 5G 或者更好的通讯技术作为支撑。
实际上,人们的合理想象如何在元宇宙中实现和运行,会受到技术条件和各种物质环境的约束。反观,这些技术究竟会被以怎样的方式应用到元宇宙,同时又会怎样促进技术本身的发展,却是取决于我们对元宇宙的正确“想象”。
因此,从这个角度看,元宇宙并不是一个静止的概念,而是一个想象和技术相互反应、相互交叉、聚合的过程。在不同的技术条件下,人们认识到的元宇宙是不同的,如表 2 所示。
表 2 不同技术基础上的元宇宙
2 “BIGCHINA”:认识元宇宙的技术体系
元宇宙技术由多种数字技术融合构成。在查阅与元宇宙相关的各种报道时,发现交互技术、人工智能、高性能计算等充满科技感的词汇都和元宇 宙存在交集。在相关研究基础上,本文将其中的关键技术分为 8 类:1) 区块链技术 (blockchain technology);2) 交互技术 (interaction technology);3) 通讯技术 (5G、6G,communication technology);4) 云和边缘计算 (cloud and edge computing);5) 高性能计算 (high-performance computing);6) 物联网 (internet of things, IoT);7) 网络技术 (network);8) 人工智能技术 (artificial intelligence)。
基于以上 8 类技术的首字母缩写,本文提出了 BIGCHINA 技术体系。当利用 Web of Science的文献引用信息绘制和元宇宙相关的技术词云时,借用中国地图形态呈现该词云。因此,也将其称为支撑元宇宙发展的“大中国”技术体系。中国自古以来“以天下为己任”的世界观,也符合元宇宙作为全球数字一体化背景下人类所共享的跨边界、去中心化的开放互通平台的特征,预示着其未来可能的一种理想形态。元宇宙集成和整合了之前很多的技术,其未来的想象空间巨大,潜力得到更全面的释放。
图 2 BIGCHINA 技术体系
BIGCHINA 技术体系如图 2 所示,接下来将逐一对这 8 类技术的基本状况进行介绍,分析顺序并不严格按照“BIGCHINA”的字母顺序。
2.1 交互技术
从技术角度看,元宇宙是由计算机生成的,因此计算机成为进入元宇宙的必要途径。并且,一个人在元宇宙内的所有行为,也都是通过计算机来实现的。因此,当需要找到一个现实世界通向元宇宙的“大门”时,人机交互就是打开这个大门的“钥匙”。
虽然计算机是人类发明的工具,但自它发明以来,却一直处在“主体”的位置,人们要根据机器的特征去调整与它的交互方式。在这种条件下,人的创造性和能动性受到束缚。因此,实现人机交互的根本变革,实现从“机器是主体”到“人是主体”的转变就十分重要。元宇宙把人们从过去通过文字、代码等方式进行人机交流的情境中解脱出来,转而在一个虚拟环境下,用更为自然的方式来达成人机交互。而要做到这一点,就需要有多种技术进行支撑。
与元宇宙相关的交互技术主要分为两类:扩展现实技术 (extended reality, ER) 和输入技术。前者又包括了虚拟现实 (VR)、增强现实 (AR) 以及混合现实 (mixed reality, MR)。
1) 扩展现实技术:如果说 VR 是用计算机模拟出虚拟的世界,那么 AR 则是要将图形、声音、触觉等要素添加到现实世界中,MR 是把 AR 和 VR相结合,彻底达到虚实结合、虚实交互。
严格来说,AR 和 MR 是有区别的:虚拟和现实是可分的,就是 AR。反之,如果虚拟位置的相对位置会随着设备变动,并且虚实之间融为一体,那么就是 MR。当然,在实践中人们经常混用这两个词,很多本应称为 MR 的产品,都被称为 AR。考虑到这种习惯上的混用,在后文中也不对AR和 MR 进行详细区分,都统称为 AR。
① 虚拟现实 (VR)。人们对场景的感知往往是通过视觉、听觉等感官来实现。因此在模拟一个虚拟环境时,也必须从这些感官入手来进行。在所有感官的刺激当中,视觉刺激最重要,应用也最广泛,因此,以下主要以视觉为例进行分析。
目前,视觉VR技术广泛应用,但其技术瓶颈依然存在。如很多用户戴上 VR 头盔会感到头晕, 其原因是人的反应和图像变化之间的延迟比较严重。在元宇宙环境下,信息传输量巨大,相应的延迟会更严重。此外,VR 设备的重量也是问题,人们长时间携带这么笨重的设备,难以在元宇宙中获得好的体验感。因此,要迎接元宇宙时代的到来,VR 技术仍需进一步突破。
② 增强现实 (AR)。和视觉 VR 的纯虚拟图像不同,AR 实现了现实图像和虚拟图像的结合。在实践中,一个视觉 AR 系统通常会先通过摄像头或传感器来对真实场景进行采集,并将其图像传入后台进行分析,从而得出现实场景的相关坐标。然后,系统会根据这个坐标,对虚拟场景和现实场景进行匹配,生成虚实结合的场景。
在上述工作中,对现实场景进行有效的定位极为关键。主要的定位模式有两种,一种是基于图像的定位,一种是基于“即时定位与地图构建”(simultaneously localization and mapping, SLAM) 的定位技术。前者是先对某个具体的图像进行分析,确定其坐标,然后用这些坐标来进行定位。如用手机上的修图应用给一个人的正面照加上一副眼镜特效,手机就会先对照片进行分析定位五官,然后确认出应该把虚拟的眼镜放在什么地方。而基于SLAM 的定位通过摄像头采集周围的信息,再把这些信息和数据库中的信息进行比对,就可以给出相应的定位,找到确切的坐标。
此外,在沉浸式设备的技术性能上,用户沉浸感受到视野的限制。头盔设备有限的视场远小于人类视觉。如在谷歌眼镜等低规格头盔设备上,视场可以相当于离用户视线 240 cm 的 25 英寸显示屏。随着显示技术的进步,未来视野受限的问题会得到解决。
元宇宙的虚拟显示方式是另一个重要课题。一个常用的设计策略是利用用户的周边视野,该方案最初旨在识别障碍物,避免危险事故,并在广泛的活动中测量脚的位置,如行走、驾驶等活动。用户可以专注于物理世界中的其他任务,而不受到来自元宇宙中的虚拟实体的干扰。当在用户的视野中呈现虚拟覆盖时,颜色、内容的合法性、可读性、视觉疲劳、运动抖动等因素也需一并考虑。
扩展现实技术是近年来综合多学科的计算机领域的一门新技术,涉及航天、军事、通信、医疗、商业等研究和应用领域。目前在传感和感知机理、几何与物理建模、高速图形图像处理等方面均存在技术难点。因此,进一步提升现有 VR 系统的交互性和沉浸感仍存挑战。
2) 输入技术:无论是 VR 还是 AR,如果没有解决人机交互过程中的输入问题,就无法让用户在元宇宙当中自由遨游。在传统的键盘、鼠标、麦克风等输入设备基础上,新的更加自然的输入方式被引入。关于元宇宙中的输入问题存在不同的解决方案。
① 徒手交互 (freehand interaction)。如短视频就使用了这种交互方式。这种交互非常直观,但它的局限也较为明显。当面对更为复杂的情况时,徒手交互无法仅依赖屏幕实现更复杂的交互手势,因此必须引入计算机视觉技术。此外,包括光学、热释电红外等方式被引入以支持更复杂的用户交互。
② 采用“身体交互”(on-body user interaction),通过附着在用户前臂上的传感器,可以将用户的身体变成输入载体。这样,用户可以像电影中的“蜘蛛侠”一样,通过在身体上轻击,实现与各种数字实体的通信。最新的身体交互技术具有设备小型化趋势,从手掌区域到指尖。
③ “数字纺织品”。该技术在普通织物中集成新型材料和导线的交互设备,支持用户与 2D、3D界面的交互。谷歌推出的“雅卡尔计划”(project Jacquard),专门从事低成本的数字纺织品的研发和生产。可以想象,不久的将来,融合了智能编织技术的服装将会成为人类畅游元宇宙时最重要的输入设备之一。
④ “ 脑机接口 ” (brain computer interface,BCI)。人或动物的大脑信号与外部数字设备之间创建连接通道,从而实现大脑信号与外部信息的交换。现阶段已经实现了使用“意念”即脑电图(electroencephalogram, EEG),通过脑机接口打字等人机交互行为。
2.2 人工智能
如果说交互技术是人们进入元宇宙的门户,那么人工智能就是让虚拟世界运转起来的发动机。人工智能是指让机器能够从经验中学习并执行各种任务的理论和技术。近年来,它在各种应用场景中广泛应用,包括自然语言处理系统、计算机视觉系统和自动识别系统等。现阶段,人工智能在元宇宙的应用主要体现在 3 个方面:数字克隆体制造、虚拟人的智能化以及数字化身的个性化。
1) 实时场景和数字孪生体制造。在元宇宙中,用户的位置随时变换。与之对应,虚拟场景也要随之变换,以保证其与用户的互动。在这个过程中,大量的图形、阴影变化,都需要人工智能实时作出判断。
数字孪生 (digital twins) 的概念是创建数字克隆体,并保持与物理世界的相互作用。因此,在工业领域,数字孪生技术正在助力产品设计、测试等关键过程。在元宇宙中,如何让数字克隆体与现实世界的物体保持一直,并实时交互?深度学习技术 (deep learning) 发挥了重要作用。数据的异构性使得深度学习驱动的数字孪生必不可少。航空航天以及军工技术等离不开数字孪生的支持。发达国家目前一直在关注与利用数字孪生技术来构建未来战场,不仅是利用数字孪生技术来帮助技术的研发,而是借助于数字孪生技术来构建与开展战场的训练与管理。
2) 虚拟人的智能化。如果物理世界的人类以国家、种族、皮肤颜色来划分,那元宇宙中的数字人的划分又是另外一种形式,如有身份的虚拟人——虚拟化身和虚拟 IP,没有身份的虚拟人——各式各样、承担不同角色和功能的“NPC”虚拟人 (nonplayer character, NPC)。在不同的游戏中每个人拥有不同的虚拟化身,还能根据个性特点购买相应的服装 (皮肤) 和道具。慢慢地,虚拟化身从游戏逐 渐渗透到别的领域。除了游戏领域外,对虚拟化身这个物种最敏感的是手机厂商,还有一些大家熟悉的社交软件。自苹果手机后,目前虚拟化身的能力对手机厂商来说已经是标配,社交软件也在逐步叠加虚拟化身的功能,慢慢也会成为社交标配型产品。
在元宇宙中,不管是实现人的数字化身,还是作为“气氛组”存在的虚拟人 (NPC) 的智能化,都需要人工智能。为了大幅提升虚拟人 NPC 的训练效果,经常会用到强化学习 (reinforcement learning)。
强化学习的学习过程其实是算法 (智能体) 在环境中进行不断尝试和试错的过程,智能体根据试错过程中得到环境反馈的“奖励”或者“惩罚”信号,不断优化策略,从而在短时间内提升智能决策能力。
3) 数字化身的个性化。目前,虽然元宇宙中的玩家数字化身是个性化的,但是只能提供发型、眼睛、眉毛、鼻子等少数特征模型供玩家选择。这导致了很多玩家的形象区别性不明显,从而一定程度上降低了玩家在元宇宙中沉浸体验的乐趣。针对该问题,如果仅仅通过从人体特征库中随机抽取并组合一个数字化身,很有可能会组合出一张审美完全不符合玩家预期的数字化身形象。
为了克服以上缺陷,“生成对抗网络”(generative adversarial network, GAN)派上了用场。生成对抗网络是一种先进的深度学习模型,用于学习训练样本的分布,并生成遵循相同分布的数据。其核心思想是生成器网络和鉴别器网络之间的较量。
具体来说,生成器网络输出具有学习数据分布的“伪图像”(fake images),而鉴别器则输入“伪图像”并判断其真实性。以服装设计图片生成为例,生成器会在概率密度分布函数下,生成一张服装图片,然后把这张图片交给鉴别器,让其判断是不是一张服装图片。起初,鉴别器有一定的服装图片鉴别能力。因此,生成器会在鉴别器的“指导”下不断训练,一直到生成器生成的图片被鉴别器网络鉴别为真后,对鉴别器进行训练,进一步提高其鉴别能力。这样,生成器和鉴别器的交替训练,最后形成一个具有较强服装设计能力的生成器。目前,包括英伟达在内的一些企业已经开始提供基于GAN 的数字化身生成。
2.3 高性能计算
游戏《堡垒之夜》玩家同时在线的峰值有1 070 万,但这只是 100 000 个不同的一百人游戏。最终能否将它们全部放在一个共享的世界中?那将会是什么样的体验?要实现这个愿景,高性能计算必不可少。提到高性能计算,哪怕是初次接触这个领域的读者可能也能想到广为人知的超级计算机。这些超级计算机由于拥有极强的计算能力,被广泛应用于诸多领域的复杂计算中。
元宇宙可能是继互联网和移动互联网之后的下一个计算平台。然而,今天的计算、存储和网络基础设施还不足以实现这一愿景。想要真正拥抱元宇宙,就必须努力突破这一瓶颈。从目前看,突破算力瓶颈存在多种可能的技术路径。
高性能计算:使用多处理器或多个设备来完成大规模密集型数据的计算。其中,最为关键的核心技术是并行计算 (parallel computing)。与串行计算相比,在并行计算中,任务被分解并交给多个计算资源进行处理。而前者不会对计算任务进行拆分,一个任务的执行会固定占有一块计算资源。串行计算和并行计算的对比如图 3 所示。
图 3 串行计算和并行计算
在元宇宙领域,很多大型企业给出的计算解决方案的优势都是基于异构并行。英伟达在很早的时候就开始探索图形处理单元 (graphics processing unit, GPU) 和 中 央 处 理 器 (central processing unit,CPU) 之间的协同,并取得了很好的效果。
完全沉浸式的虚拟环境需要高性能计算作为底层基础设施支撑,在元宇宙需求的推动下,数据中心作为计算和存储的重要硬件设施将有望保持10% 以上增速。如果想要参与构建元宇宙,在规模化的体系下必须要有两大基础资源支撑:计算和存储。
Meta(前身为 Facebook) 正在建造新的超级计算机来训练庞大的机器学习算法。虽然只是部分完成,但人工智能研究超集群 (research supercluster,RSC) 已经跻身全球最强大的机器之一。Meta 希望RSC 可以通过训练更好的算法来改进产品。进一步来讲,这些算法可以在数以万计的在线用户之间实现实时语言翻译,可以从不同的输入 (包括文本、图像和视频) 中学习和泛化。在元宇宙中,用户要获得 3D 多感官体验,就需要在环境中创建与个人相关的人工智能代理。
虽然 Meta 没有给出 RSC 当前最高速度的数据,但就原始处理能力而言,它似乎与世界排名第五的 Perlmutter 超级计算机相当。目前,RSC 运行在6 800 个英伟达 A100 GPU 上,处理计算机视觉工作流程的速度已提高 20 倍,大型语言模型 (如GPT-3) 的处理速度提高了 3 倍。
除了纯粹的速度,RSC 还将赋予 Meta 在其海量用户数据上训练算法的能力。因此,RSC 将使用来自Meta生产服务器的真实世界的用户数据。
为了容纳Meta庞大的训练数据集并进一步提高训练速度 , 不久的将来,RSC将扩容到包括16000个GPU和 1 EB(109) 的存储空间,RSC将以16 TB/s 的速度提供训练数据,并以 5×1018 次/s 浮点计算最高速度运行。
2.4 云计算和边缘计算
迄今为止,应用最广泛的元宇宙应用是移动和可穿戴设备,如 AR 眼镜和智能手机。然而,对于移动设备来说,元宇宙所需的密集计算通常过于繁重。因此,为了保证及时提升用户体验性,减少延迟性,特别是在需要实时数据处理的场景中,保证用户身临其境的体验至关重要。
1) 云计算。如果高性能计算和量子计算都不能完全解决元宇宙带来的算力挑战,那么还有一种解决思路就是应用云计算。可以用一个通俗的比喻来对其进行理解。传统上,用户主要是通过调用自有的单一信息技术 (information technology, IT) 资源,这就好比每家每户自己发电供自己用;而云计算则是建了一个大型的发电站,然后将“电力”(IT 资源) 输出给所有的用户。换一种直观的表述方式,如果进行 IT 领域的创业工作,自己无需购买物理的服务器设备和机房设施,云计算服务商都会提供在线服务,只需要关注如何设计好程序。
2) 边缘计算。从理论上看,尽管云计算可以很好地满足元宇宙产生的巨大运算和存储需求,但是其缺陷也很明显。比较重要的一点是,在执行云计算时,有大量的数据要在本地和云端之间进行交换,这可能会造成明显的延迟。对于元宇宙的用户来说,这会对其使用体验产生负面效果。
“边缘计算”(edge computing) 是一种在靠近物或数据源头的网络边缘提供智能服务的新型计算模型,它能够节省网络流量、提高响应速度和保护用户隐私,在物联网应用中显示出了优于云计算的性能,受到工业界、学术界的高度关注和认可。边缘计算是元宇宙中补充当前云解决方案的一个有希望的技术路径,与云计算相比,它可以有效减少用户体验的延迟。由于边缘平台靠近用户,因而其与用户的数据交换更加及时,延迟问题可以得到较好解决。可以把元计算和边缘计算类比为大脑和神经元的关系。研究表明,借助边缘计算,延迟可以降低 60% 以上。利用边缘计算的延时优势,研究人员提出了一些解决方案来提高边缘计算的效率。如边缘计算技术 EdgeXAR 针对 AR 服务提供了一个移动 AR 框架,利用边缘卸载的优点提供轻量级跟踪,并对用户的感知隐藏了卸载延迟。
2.5 通讯技术
元宇宙基于人机交互技术实现互动体验,将数据传输至云端、边缘端计算再反馈至设备。然而,如今的技术难点在于实现低延迟的连接,这对通讯技术提出了更高的要求。可以将通讯技术视为元宇宙的数字“高速公路”,如图 4 所示。
图 4 5G 通讯技术特点和应用场景
在元宇宙中,多媒体应用的吞吐量需求呈指数级增长。5G 的增强能力将为依赖于大量数据实时传输 (AR、VR) 的应用打开大门。元宇宙不仅需要大量的可用带宽,而且可能与其他应用程序产生竞争。因此,有学者预计元宇宙所需求的带宽将超过 5G 的可用带宽。在高度交互的应用程序中,如在线云游戏,130 ms 通常被认为是较高的阈值,而一些研究显示,当延迟低至 23 ms 时,用户性能会下降。
此外,元宇宙强调以用户为中心。因此,在网络设计方面,需要采取多种形式,从将用户体验置于流量管理的核心,到支持以用户为中心的感知和通信。5G 使许多以用户为中心的应用搬到了云端,如云游戏、实时视频流。这些应用广泛依赖于视频流的实时传输。
现在,5G 技术已经逐渐开始普及。应该说,相对于 4G 或者更早的无线通讯技术,其传输速度高了几个数量级,要满足现有的互联网信息传输可以说是绰绰有余。即便如此,5G的传输速度依然难以和有线传输相比肩。如果与前面说到的有线传输极限速度相比,5G 的传输速度大致上只有其 1/16 000。不仅如此,由于 5G 需要建立大量的基站,其成本将十分高昂。
随着技术水平的更新,未来内容的沉浸式体验有望进一步升级,但是如何在这些沉浸式设备大规模接入的同时,实现高同步低延迟的通信将是元宇宙发展的基本问题。设想一下,你正在元宇宙中欣赏瑰丽壮美的风景,当你转头时,由于噪声和延迟导致画面瞬间变模糊,并在几秒之后才逐渐将清晰的画面刷新出来。过高的网络延迟会导致虚拟物体滞后于预期的位置,造成眩晕感,这些显然是极度糟糕的体验。通感互联也对网络时延提出了极高的要求,例如人类大脑对触觉的反应时间约为 1 ms,而现有的 5G 端到端时延大概在 10 ms 左右,还有不小的提升空间。网络延迟的程度将直接影响元宇宙用户的全方位体验,低延迟稳定的高速通信网络将成为元宇宙的必需品。
2.6 网络技术
现实世界和元宇宙,需要网络技术进行沟通。除了通讯技术之外,元宇宙对于网络的设计也提出了很多新的要求。在元宇宙中,内容传输量会比现在暴涨几十甚至上百倍,但对于延迟的忍耐力却更低。如何才能满足这种高吞吐、低延时的挑战?
以城市货运的场景为例。为了满足货运增加的需要,第一反应就是增加数量更多、速度更快的车。这就好像在考虑传输时,会先从通讯技术层面找突破一样。但是,对于货运来讲,只增加车的数量显然是不够的。如果不对道路进行相应的规划、管制和改建,那么这些飞奔的货车就会撞在一起,造成一片混乱。同样的,如果不对网络加以相应的设计,那么仅靠通讯能力的提升也无法很好适应元宇宙的挑战。
面对拥堵的交通局面,一般来说,会采用宏微观两个层面的方法来对交通进行疏导。在宏观层面,把道路进行分类,让不同的车走不同的道。在微观层面,在各个路口安排交警进行协调。交警就会让有特殊情况的车辆先行通过,而对于其他的司机,则需要进行更多等待。在网络设计上,类似的思路依然适用。
交通上的分道行驶,在网络设计上被称为“网络切片”。网络切片为元宇宙中的应用程序提供吞吐量、抖动和延迟保证。简而言之,它就是把一个整体的网络切分成几个层,让不同的应用在不同的层次进行传输。这样,就可以在总传输能力有限的情况下,优先保证那些对网络要求较高的需求。
可以想见,当元宇宙的需求被真正激活后,传输总量、传输种类会出现暴增。在这种情况下,要对网络的资源进行更好的宏观配置,势必要对网络进行更为科学、精细的切片。交警对于道路的微观疏导对应到网络领域,可以类比为服务质量管理(quality of service, QoS)。当道路通过量有限时,就必须决定谁先行、谁等待。类似的,当网络传输拥堵时,就必定会发生数据包的丢失。这时到底丢弃谁的数据包就成为一个问题。QoS 管理的逻辑就是按照服务对传输质量的要求来决定优先级,先丢弃那些对于传输要求不高的服务数据,以尽可能保住那些对传输要求高的服务数据。而究竟哪些服务对于传输的要求更高,依靠的主要是一套技术上的客观标准。
这个逻辑本身没有问题。但是,在元宇宙条件下,人的主观体验可能会越来越重要,用体验质量管理 (quality of experience, QoE) 取代 QoS 管理的诉求也变得越来越强。举例来说,如果从纯技术的角度看,对一个机器指令的传输可能要比一个游戏信号的传输更为重要,因此基于 QoS 的标准,应该先让对机器的指令通过。但对于用户来讲,这可能并不正确。事实上,对于很多人来讲,一个机器早执行、晚执行一个任务几分钟并没有什么问题,而如果一个游戏的信号晚了几毫秒,他的体验就会大幅下降。因此,基于 QoE 的思路应该先让游戏信号通过。
当然,元宇宙的应用场景很多,QoS 和 QoE管理都有其市场。至于如何根据场景的变化,随时切换两种管理模式,这或许会成为元宇宙条件下网络设计需要考虑的一个重要问题。
站在网络空间基础设施的视角,个人电脑、智能手机和 VR/AR 眼镜都可归为一大类接入终端,即“通信型”终端。这些终端本质上解决的是人的通信需求。除了“通信型”终端,在网络空间还有两大类接入终端,分别为计算型终端和功能型终端。计算型终端指的是一直在执行计算任务的终端,主要是各类服务器或者参与网络计算的节点,它们与人的通信需求无关,主要工作是完成各类分布式计算任务。通信型和计算型终端一样,如果不需要执行计算或通信操作时,就进入休眠状态。功能型终端则与以上两种终端不同,它们本身就具备特殊功能,最典型的就是智能汽车、工控终端、物联网终端等。智能汽车本质上是一个高速移动的高质量运载体,同时工控终端本身的功能是生成制造,当这两种终端大规模接入互联网之后,也会产生许多新的互联网应用,也就是常说的“车联网”和“工业互联网”。
综上所述,站在网络接入终端的角度理解元宇宙,它是通信型终端发展的下一个里程碑,是从以个人电脑和手机为基础的二维显示和交互发展到以 VR/AR 为基础的三维显示和交互之后产生的互联网应用新形态。
2.7 物联网技术
现在讨论元宇宙,大多将其视为一个与现实世界相对的虚拟世界。无论是虚拟现实,还是人工智能,都围绕着这个虚拟世界在讨论。然而,这种虚实之间的分离叙事显然难以令人满意。这时,物联网、机器人等技术就显示出重要作用。伴随着新技术的发展,虚实之间的互动变得更加容易。
物联网,就是通过各种信息传感器、射频识别等装置与技术,实时采集关于物体的各种信息,并通过各类可能的网络接入,达成物与物、人与物的互联,实现对物品和过程的识别和管理。物联网技术可以嵌入到受控物体的内部,让物品在接收相关指令之后,采取对应的行动。物联网技术,再加上通信网络、云等基础设施,就可以在人与人互联的基础上,进一步实现万物互联。人们与互联网交互的方式将不局限于移动手机和电脑,各种穿戴设备、汽车、家居等都将接入网络中,满足以多元化方式接入元宇宙的需求。
如果物联网得到充分的普及,那么当人们在元宇宙里看到了想吃的美食之后,就可以通过物联网将烹调美食的指令发送到附近的机器人。机器人可以根据程序,制作出对应的美食再送到我们的身边。如果能够达成这样的虚实互动,那么元宇宙对人们来讲就不再是一个虚拟世界,而将成为生活世界的一部分。
AR、VR 等虚拟环境以其突出的内容可视化的特点,成为打通机器人与虚拟环境之间沟通渠道的解决方案。集成了虚拟环境的工业实例也使人类用户能够理解机器人的操作,如任务场景分析等。因此,人类用户与机器人建立信任,促进了人类—机器人协作的范式转变。目前的研究主要集中于机器人的感知以及虚拟环境中的界面设计方面。
目前,新兴的 MR 技术以工作空间作为通信接口,机器人可以充当我们的朋友、家庭守护者等,人类可以与机器人和无人机进行自然交互。不难想象,未来机器人将积极主动地为社会服务,并自发地参与各种各样的应用和服务。通过物理和虚拟世界中无所不在的接口,元宇宙包含了现实—虚拟连续体,并允许用户在两者之间无缝体验。其中,Meta 公司开发了一种超薄的且可更换的机器人皮肤,可以让机器人通过感受物体和环境在现实与元宇宙之间进行互动。这个机器人的皮肤是橡胶 (不到 3 mm 厚) 和磁性粒子的组合,并与人工智能技术相结合,帮助机器人通过触觉来感受。在机器人皮肤接触任何表面后,就会产生变形并改变磁场。
2.8 区块链技术
区块链是一个共享的、不可篡改的账本,旨在促进业务网络中的交易记录和资产跟踪流程。几乎任何有价值的东西都可以在区块链网络上进行跟踪和交易,从而降低各方面的风险和成本。在元宇宙中,区块链是一种重要的技术。包括 Sandbox 等在内的众多元宇宙公司均采用区块链来作为它们的经济和治理系统的技术基础。
严格地说,区块链并不是一种单一的技术,而是由多种技术组成的集合体,它的思想可以追溯到中本聪 (Satoshi Nakamoto) 于 2008 年发表的奠基性论文。现在,区块链通常被用来指一种去中心化的基础架构和计算范式。它利用加密链式区块结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用智能合约来对数据进行编程和操作。
元宇宙产生了难以估量的海量数据,有限的网络资源无法将如此庞大的数据上传到云服务器。区块链技术的迅速发展使人们看到,将区块链应用到数据存储系统中可以保证元宇宙服务器的去中心化和安全性。区块链是由一系列区块串接而成的链。这些区块按照生成时间为顺序排列,每一个数据区块由包含元数据的区块头 (header) 和区块体(body) 组成。其中,区块头保存的是各种时间戳的信息;而区块体保存的则是主要的交易和连接上一区块的信息、各种用来验证区块信息的信息。换言之,区块头是用来对“链”进行串接的,而区块体则是保存信息的主要载体。
在早期的元宇宙项目中,经济和治理系统通常是基于中心化的体系来构建的。以著名的早期元宇宙产品《第二人生》为例,经济和治理系统都是由其运营商林登实验室来构建的。如在整个虚拟世界中究竟有多少货币流通、每个道具值多少钱、用户违规会被怎样处理等问题,都由林登实验室掌握最终的解释权。不仅如此,从根本上看,用户在《第二人生》创造的虚拟世界中拥有的所有物品 (包括他们自己创造的内容) 的所有权最终都掌握在林登实验室手中。如果林登实验室愿意,就可以随时剥夺任何一个用户在虚拟世界当中的一切。
显然,对于更为强调自主性的用户而言,这种霸道的中心化经济和治理系统是很难接受的。因而,为了吸引更多用户,新近的各种元宇宙项目通常都采用了区块链来作为底层架构。这样,用户就可以基于区块链对这些项目进行自治化的管理,自己决定这个项目的经济如何运作、治理如何运行。与此同时,元宇宙中的各种数字资产还可以被制成非同质化通证 (non-fungible Token, NFT),用户可以通过持有 NFT 来拥有它们,对它们主张权益, 还可以在项目内外自由地交易它们。
从性质上看,区块链的运作并不依赖于一个中心化的协调者,可以实现人与人之间的点对点交互,可以在人们互不相熟的条件下保证交互的安全,尽可能保证用户的隐私。所有这些性质,都使得它非常适合元宇宙中“人与人的自由联合”的组织方式。因此,现在很多元宇宙项目都开始使用区块链作为其经济系统和治理系统的底层架构。如Decentraland 就是基于以太坊区块链的完全去中心化的虚拟世界,它最大的价值在于虚拟土地的数字资产化,玩家可通过区块链平台购买虚拟地块(LAND,以太坊智能合约维护的 NFT) 自由展开建设,真正拥有数字资产的所有权。
3 展望
在元宇宙中,人们汇聚在一起,彼此交流、彼此协作,形成各种新的组织。作为与现实世界对应 的虚拟世界,一个完整的元宇宙也必然会像现实世界一样拥有自己的经济系统,而这个经济系统未来 也将会对元宇宙的发展起到重要作用。
元宇宙是虚拟的世界,因此其价值也主要体现在虚拟而非现实的层面。但事实上,元宇宙虽然源于虚拟,但其对现实世界却能产生重要影响。作为虚拟世界,元宇宙并不完全与真实世界隔离,技术的演进使得两个世界之间的经济联系呈现出逐渐强化的态势。
这种推动表现在很多方面。在人类交往方面, 元宇宙降低了人与人、人与信息的交互成本,越来越多的工作开始“在线完成”;在工业生产方面,对于机器的操作,可以借由“数字孪生”技术来保持元宇宙和现实世界的同步;在娱乐方面,不少明星在元宇宙里举行演唱会,这种高自由度的设定很 大程度上复刻了线下音乐会的沉浸性和互动性,让观看效果大幅提升。
未来几年,元宇宙将进入成长期,各类应用和 场景创新将层出不穷。这意味着,要洞悉元宇宙未来可能发展的方向,就必须进一步对有关的技术有深刻的认识。元宇宙作为想象与技术之间的耦合, 在不同的技术条件下,其未来形态和实现方式将呈现百花齐放的局面。
当然,本文总结的技术发展还只是其中的很小 一部分。随着技术自身的演进以及社会发展的带动 效应,更多的新技术、新应用、新场景将会出现在 我们身边,而在不同的虚拟场景和真实场景之间的 穿梭也会彻底改变人们的生产和生活。
原文刊载于《电子科技大学学报》 2023年1月 作者:苟尤钊 季雪庭 叶盈如 武强 吕琳媛
相关阅读
★潮涌 | 元宇宙再定义:从2022到2025,上海如何“以虚强实”
来源:电子科技大学学报,先进制造业公众号推荐阅读,版权归原作者所有,转载请注明。但因转载众多,无法确认真正原始作者,故仅标明转载来源。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权并按国家标准支付稿酬或立即删除内容!本文编辑:微明
投稿及商务合作:13386409839(同微信)
微信号:amdaily
长按识别二维码即可关注