探索下一代互联网，阿里云视觉计算能力与思考

Original 王志坤云布道师 2023-06-18

云布道师

今年 12 月，第二期阿里云视觉计算私享会在上海举行，本次会议由英伟达与阿里云联合主办，邀请了众多 VR 和 AR 领域生态先行者、知名制作人等，分享行业洞见，探讨如何“加速沉浸式体验落地”。阿里云弹性计算产品总监王志坤也带来了题为《重构计算，驱动视界：阿里云视觉计算能力与思考》的分享。以下内容根据现场演讲整理而成。

下一代互联网：

以虚拟现实为呈现形式，以沉浸式交互为体验

当一个新的业界趋势出现时，我们可以往回看看历史。

当下的互联网正处在移动互联网时期。在进入互联网时代之前，乃至过去几千年间，人们对信息的获取手段主要是文字；PC 互联网时代解决的是信息被数字化之后能够高效检索的问题；而如今的移动互联网，因为加入了移动基站定位功能，所以能够和日常出行、外卖、支付等场景联系起来。近两年大家对下一代互联网的共识就是以虚拟现实为呈现形式，以沉浸式交互为体验特征的互联网，会带来体验上的极大创新。

我们从底层基础设施支撑、素材构建、应用开发、应用发布四个层面来看，打造沉浸式体验存在着不少挑战：

首先，在视觉计算维度，打造沉浸式体验一定会对算力有很大的诉求。原因很简单，沉浸式体验对模型以及智能化的要求逐步变高，还有实时交互的特征，都离不开算力支持。
其次，打造沉浸式需要各种人、物、场等 3D 素材，传统方式费时费力，需要精确、快速、低成本地构建素材。
再者，生态繁荣需要一个低门槛的开发平台，帮创造者更好打造 3D 应用。
最后，今天的沉浸式体验，交付到客户手上有各种各样的终端，如何能够保持高效、实时交互，也是需要注意的问题。

阿里云视觉计算产品方案

加速沉浸式体验探索

从 2017 年开始，阿里云就一直在打造以 GPU 为代表的异构算力，最初主要面向的是AI计算场景，这两年云游戏、虚拟数字人、虚拟演唱会等新的交互形式出现，帮助我们锤炼在视觉计算领域的能力，使我们产品和技术不断丰富完善。

阿里云作为一家平台厂商，我们在整个生态中的定位和价值，是跟上下游合作伙伴一起构建全流程解决方案平台，涵盖从算力、云上 3D 素材构建、云上 3D 应用开发、云上 3D 应用发布等全流程的技术服务。

在阿里云弹性计算所构建的能力体系中，不得不提的是我们的 IaaS 能力，也是保障沉浸式应用优质体验的底座，这也是沉浸式体验所面临的最底层的，来自计算的挑战。

想要达到真正的沉浸式体验，对画质的清晰度、交互的流畅和智能化的要求是非常高的。

我们目前看视频，可能觉得常说的高清，就已经基本足够的，再不行 4K，但真正的沉浸式体验，需要 VR 眼镜双眼 8K 以上的分辨率。此外，在虚拟世界里面的数字人，如要实现高度智能，就免不了使用大模型，也要求快速、流畅的交互，这些对算力的需求都非常高，我相信依靠云端的算力是一个最优解，算力底座是我们很重要的基础。

从 PC 互联网到移动互联网过渡时期，网络不畅、应用卡顿等是用户从入门到放弃的直接原因，也导致很多业务无法开展。沉浸式体验更是如此，三维时空的强交互，流畅度更加重要。

针对这些要求，算力方面，基于 NVIDIA 的 A10 GPU、阿里云的 CIPU 芯片与 IaaS+ 软件的加速，使得阿里云 GPU 云服务整体性能上相比上一代，不管是 AI 能力还是视觉计算能力方面，都有显著提升。

网络是决定体验的重要一环。面向客户的网络接入，阿里云有全球一张网的加速；在数据中心内部，通过底层自研的CIPU软硬一体的技术架构，加速转发、降低延时，我们的VPC网络最低延时达到16微秒，并且还有面向编解码场景的优化，保障了交互体验。

最后，今天当客户进行业务创新时，我相信第一天一定是考虑基于云来构建的，因为随着业务的增长和爆发，对于底层资源的弹性能力要求非常高；依靠阿里云强大的供应能力，以及我们的弹性能力，可以快速地交付海量算力资源支撑客户的爆发的业务增长需求。

在 3D 互联网时代，人、物、场等 3D 要素的基础素材，将会是构建沉浸式体验的细胞。然而，目前我们可以看到，构建一个高精度模型的成本依然是非常高的，优秀的建模师人力成本非常高，2D 转 3D 的算法精确度和效率都不如人意；同时现有的 3D 素材没有被充分利用起来，很多工作室、3D 引擎社区等积累了大量优质素材，这些素材本来是可以通过交易和继承的方式用于新的业务当中的，但因为素材创建时用的工具和软件不同、存储格式不同，导致重复造轮子的情况时常发生。因此，我们认为，云上 3D 重建及素材管理服务是非常必要的。

为什么要在云上，是因为算力使用的需要，也是因为云上，会更有利于素材的流转。而在这个平台中，我们认为有两类能力是非常必要的：

一个是通过新型的主流技术，AI 逆向渲染、光场扫描、激光扫描、AIGC（AI 生成内容）等高质量地生成、构建 3D 模型；
二是打通各种素材的管理，从而更高效、高质量地支持业务。

在基础要素的模型构建制作初步完成之后，后续就需要开始对我们的 3D 应用进行开发。

传统的 3D 软件开发，比如游戏等，一般都是需要在高端图形工作站上完成的，这种级别的硬件是十分高昂的，还需要开发者使用 C# 或者 C++ 等专业编程语言来开发，熟练这类语言的开发者数量非常有限，这些都导致应用开发的门槛变得特别高，而且有很多大型的场景，其实是需要不同的开发者合作的。

Office 是文字办公领域的编辑器，在 3D 世界同样需要一个这样的编辑器。元宇宙环境下的编辑器，不再是单机模式，一定是多人协作的模式。这天然适合在云上运行，云上编辑器能够帮助大家更好地协同，降低对于本地环境的依赖，降低开发门槛。我们还会跟主流引擎或者行业编辑器共创，在云原生的编辑器中引入更多的插件，通过低代码的方式降低开发门槛，繁荣开发者生态。

分享完云上开发，我们就谈到应用发布的下一步——云端发布。

我们知道，目前游戏等大部分的 3D 应用，还是需要基于端，而终端的形式非常丰富，包括手机、电脑、平板、VR 和 AR 头显，就算是同类型的终端，配置的差异也很大。这就带来了巨大的终端适配成本。

我们面向云上发布的场景，推出了云 XR 平台，用户可以在数分钟内将自己的 3D 应用在云 XR 平台上部署，并将服务发布到全球任何角落。一套平台解决渲染、编码、推流全流程的软硬件技术服务，同时提供用户管理，资源管理等服务；可支持头显、手机等更丰富的终端形态。通过将计算放在云端，能减少对终端设备算力的依赖，用户也无需下载 GB 级别的客户端，随时随地快速接入，大大提升了用户体验。对于开发者而言，云原生视觉计算应用大幅降低了终端适配成本，为研发降本提效。

同时，云 XR 平台还可以结合阿里云弹性计算的资源弹性优势和即开即用的计算资源交付优势，自动匹配和调度底层的算力资源。

基于上述提到的产品能力，面向互联网行业，虚拟活动、数字人构建、云上 3D 应用开发等场景，可以很好地利用我们的产品能力来实现。

零售、互娱行业率先落地云上视觉计算实践

我今天挑选了几个案例，分享客户与阿里云合作的部分实践。先分享下阿里妈妈在新零售行业所做的尝试。

在最近的双11 购物节，阿里妈妈就和江苏卫视联合打造元宇宙明星歌会《2060 元音之境》，潘玮柏、刘雨昕、萧敬腾、张含韵四位明星真人亮相江苏卫视，而他们的数字化身则同步在虚拟空间“曼塔沃斯”大陆的舞台表演。

曼塔沃斯大陆场景比较丰富，有品牌馆、数字藏品馆和中心舞台等多场馆，“逻戈斯号”这艘飞船是总传送点，用户可听演唱会，也可看藏品、参观品牌馆。

“曼塔沃斯”虚拟大陆舞台

这么大型的场景也意味着场景、人物形象与地图等相关的视觉高保真模型数据量巨大，如果封装成安装包在终端上运行，安装包将有几十 GB 大。同时，因为演唱会是实时交互的，观众可以在里面通过虚拟化身自由走动，这样所需要的计算资源，会随着观众接入数量增加而增长，不仅用量大，还突发性强，就需要云端算力的超强弹性。

通过阿里云云 XR 平台的支持，《2060 元音之境》实现了万人同时身临其境，观众不需要提前预装软件，且不限手机、PC、平板等平台终端，也不会占用实际储存空间，只需淘宝扫码或者点击链接，就可一键进入“曼塔沃斯”虚拟世界。算力实力可见一斑！

另一个案例是今年我们和彼真科技、轴厂等伙伴一起打造的多场 3D 科幻虚拟演唱会。我可以看到其中的挑战还是很大的：

第一，演出类的应用会场装潢、角色等模型都特别大，但是让用户下载安装 APP 几乎不可能，需要轻客户端或者无客户端；
第二，高保真模型的计算与音视频传输，要保证云与端的同频，才能给到用户最佳的沉浸体验，这对算力和延时有极高的要求；
第三，大规模弹性部署，需要大资源池来承载数十万甚至数百万人在线的演出场景。

基于我们的云 XR 平台，可以非常方便地将虚拟演出的应用部署到云上且实现终端无依赖。

依托于搭载云神龙计算架构上的 A10 GPU 实例可以从容应对，强大的像素填充能力，再加上神龙低延时 IO 能力，可以实现云与端的同频沉浸；依托于阿里云遍布全国的弹性计算 Region 和 GPU 池，用户可以在几十分钟内搭建出可以承载数十万人在线的演出场景，把数十万甚至上百万观众呈现在同一个虚拟舞台当中，体验现实中无可比拟的。

我们可以来看下《故障四方》和 Resurgence World 两场演讲会的一些片段。

今年阿里云支持的两场虚拟演唱会《故障四方》和 Resurgence World 现场片段

看完虚拟空间与虚拟活动，接下来我们看下虚拟数字人的实践。数字栩生是一家数字人底层技术服务商，是我们客户也是我们伙伴，它为众多知名企业，都制作过专属的数字人 IP。

在数字人这个场景，最为重要的就是数字人的逼真与灵动。逼真就要求模型特别精细，数字栩生所制作的数字人，面部+毛发+服装共计数十万面模型渲染，还要通过 AI 驱动面部上百个标志点位仿真逼真表情、驱动身体数十个关节点位仿真动作、驱动毛发和衣服产生自然飘动，这样的模型意味着驱动起来计算量非常大。另一个关键在于流畅的交互与沟通，除了精准产生表情和高度仿真的声音而外，还需要低延时的编码和传输，并且需要对终端人类的语言和情绪实现快速识别和响应。

针对这两个对底层计算与网路传输能力的要求，阿里云提供了超强的渲染与 AI 计算能力，同时依靠阿里云 CIPU 架构的低延时，实现与逼真、灵动数字的流畅交互。

阿里云云XR 平台可以大幅提升软件交付和更新的效率，AI 模型、3D 模型与素材的迭代、软件的交付与部署全流程基于云完成，数字栩生无需再客户奔赴机房进行更新；云XR 平台根据策略自动调度云资源，数字栩生不需要关心底层资源的规划。

人与人交流中，除了文字和声音外，更重要的就是手势和手语交流。数字栩生和千博信息基于云XR 平台发布了自己的手语主播“千言”。千言也在今年亮相二十大新闻中心。

与千言的沟通方式非常自然，用户通过连接云XR 平台的语音或者文字告知给千言，千言会将语音或者文字转换成听障人士可以看懂的手语。相信随着 AI 技术、虚拟人技术、云XR 技术的进步，如千言这样更接近自然的人机交互方式会越来越多，可以帮助更多人进入到数字世界，消除数字鸿沟。

手语主播“千言”（手语 AI 系统由千博信息提供）

以上更多的是偏向创意、娱乐等场景，最后来分享家居设计领域的实践。红星美凯龙是国内头部的家居企业。

红星美凯龙基于阿里云，后端采用虚幻引擎，实现家居设计的 SaaS 化，通过拖、拉、拽这种简单的、所想即所得的方式，让门店设计师或者顾客直接设计，之后就可以提交渲染了。

得益于云端的渲染能力、GPU 强大的光追能力，可以做到 10 分钟之内产出最终效果，对于顾客而言就是身临其境地体验自己“理想家”每一个细节和角落。我们相信，其他的行业也将会诞生类似的场景和应用。

我今天的分享就到这里，希望对大家有所帮助和启发，谢谢大家！

你可能还想看

1. 一文解读机密容器的崛起和发展

2. 数据湖、可观测、自动驾驶训练，阿里云存储独家技术详解与案例实践！

3. 如果 IT 行业也有世界杯，这只存储队阵容如何？

4. 阿里云孙成浩：生而为云，连接增长——洛神云网络3.0持续演进

5. Tapdata 携手阿里云，实现数据平滑上云以及毫秒级在线查询和检索能力

关注我们

欢迎关注加星标✨ 回复关键词可领取相关技术白皮书

随机抽取送技术图书 · 重大节日发放文创纪念品

市管干部“龚书记”免职迷局

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

探索下一代互联网，阿里云视觉计算能力与思考

零售、互娱行业率先落地云上视觉计算实践

1. 一文解读机密容器的崛起和发展

2. 数据湖、可观测、自动驾驶训练，阿里云存储独家技术详解与案例实践！

3. 如果 IT 行业也有世界杯，这只存储队阵容如何？

4. 阿里云孙成浩：生而为云，连接增长——洛神云网络3.0持续演进

5. Tapdata 携手阿里云，实现数据平滑上云以及毫秒级在线查询和检索能力

您可能也对以下帖子感兴趣

市管干部“龚书记”免职迷局

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

生成图片，分享到微信朋友圈

探索下一代互联网，阿里云视觉计算能力与思考

零售、互娱行业率先落地云上视觉计算实践

1. 一文解读机密容器的崛起和发展

2. 数据湖、可观测、自动驾驶训练，阿里云存储独家技术详解与案例实践！

3. 如果 IT 行业也有世界杯，这只存储队阵容如何？

4. 阿里云孙成浩：生而为云，连接增长——洛神云网络3.0持续演进

5. Tapdata 携手阿里云，实现数据平滑上云以及毫秒级在线查询和检索能力

您可能也对以下帖子感兴趣