神州数码CIO沈旸:元宇宙是开放的数字世界
The following article is from 技术琐话 Author 沈旸
|引 言|
PART. 1
为什么要讲这个话题呢?在IT圈子里有一个永不停休的争论:什么叫数字化?什么叫数字化转型?之前的信息化是不是过时了?最近几年出现了很多概念,比如数字中台、数字孪生、数据湖等,那么传统的ERP系统是不是该被业务中台给替代了?传统的CIO们是不是要赶紧把CDO的Title挂上,是不是未来只有去干业务了,或者想各种办法把数据变现了?
我一直是个理工男,对各种文字概念历来不是特别感冒。但是平时在工作中,为了理解这些概念的真伪,我还是希望能够尽量简单地去理解问题。对于数字化,我也想从更本质的角度去理解它,所以就想看看最纯粹的数字化应该是怎样的。目前最“纯粹”的数字化场景,大概就是元宇宙了。
我们社会可以简单地分为物理世界和数字世界,现实社会中,我们有人财物和这三者之间的各种组合和价值交换,数字世界里也有信息熵和能量。一个比较接近原生的数字世界,可以是一个游戏的线上运营,它需要的能量可以靠太阳能,里面的玩家也可以是AI或者人类玩家,游戏的代码本身是数字世界的一部分,经济体可以用区块链来设计,这样的系统其实可以完全不依赖于人类。那么在这样的系统里,业务需要怎样进行设计呢?现实中的很多数字化转型都是物理世界和数字世界的融合,互相嵌套,有些环节在物理世界完成,有些环节在数字世界完成。不同的行业这个比例当然会完全不一样,100%的数字化那就意味着可以跟人没啥关系了。
对于数字原生的场景,可以借鉴这几部电影——《黑客帝国》、《西部世界》和最近的《失控玩家》。这三部电影很多朋友可能都看过。它们其实都讲了一个数字世界是什么样的概念,元宇宙是什么样的概念。最纯粹的数字世界是什么?比如像《Matrix》里面,大家都生活在一个数字世界里,跟物理世界完全脱离。我们离这样的时代还差多远?
PART. 2
我个人最喜欢的是《西部世界》,每个人看完一个故事后都会加入自己的设想,所以我的理解可能会跟原著不太一样。《西部世界》的故事提供了一个走向元宇宙的方法论——通过观察一个人,通过你看到的一切、听到的一切、触摸到的一切、感受到的一切,通过AI模拟的行为,一遍一遍地模拟,一直到误差为零。
技术圈里的很多朋友喜欢打牌,如果一个AI记录你历史上所有打牌的行为,通过AI观察你的面目表情和一些身体特征,那么在记录次数足够多的时候,最终这个AI大概能模拟出你的出牌风格,毕竟人脑也不是个无限的信息容器。这样的技术,在很多游戏或者自动驾驶领域其实也有一些实践。比如有些智能汽车一开始是把程序放在GTA的游戏中去训练,也有的智能汽车通过摄像头不断观察周边环境并记录人类的操作,和AI自己的判断进行不断比较,直到最终AI也能通过有限的信息去开车。
如果全世界所有的人都在教AI怎样开车,自动驾驶的落地速度会非常快,哪怕只是依赖于摄像头。这个在一些新的智能汽车里已经有很多的实践,大数据的训练和背后训练让迭代速度非常快,而且车也是一个相对标准的操作对象。
那么走向元宇宙的话,需要一些什么样的技术落地呢?
PART. 3
我们以通信技术的迭代为例。1G时代是模拟时代,到了后面2G/3G/4G通信的带宽越来越高,延时也在降低。从文本时代到视频时代,发生了很多变化,在4G普及后,视频和短视频的普及速度非常之快。今天很多人想搜索信息时都会去短视频平台搜,因为视频提供了一个更加真实的场景,它的信息损失和偏差是最小的。以前在企业里,有些员工非常擅长做总结和写PPT,不同人给不同人写和展现的PPT效果千差万别,因为大家理解文字和逻辑的路径都是不同的,就像每个人对数字化这个概念都有自己的理解。大家也可以看到在微信朋友圈里,人们对图片或者视频的点赞数量一般是远多于文字和文章的,因为图片和视频更直接。到了视频时代,哪怕是最普通的员工,用视频记录的真实场景也能把原本的含义表达出来。
那就先以视频为例子,如果AI需要关于你的所有数据来做训练,需要哪些呢?需要多大的数据量?需要多高的成本?如果本地无法处理,是否可以在云上计算这些数据呢?我们要考虑这些参数:
第一个参数是人眼的分辨率,人眼的分辨率大概是5亿像素,这并不是一个高不可及的参数,现在的手机上已经出现了1亿像素的摄像头了,基本上也能达到要求。
第二个参数是刷新的频率,人眼在120赫兹以上,几乎是察觉不到变化的。电影24帧大家不会觉得卡顿,玩射击游戏的电竞屏做到144赫兹、240赫兹基本上也可以达到要求了,人类对世界的采样并不需要一个连续的采样,只需要有限的数据就可以满足人的感官。
最后一个就是延迟。当运动员听到枪响的时候,反应速度是多少?人从听到声音,经过神经传递,最后大脑来反应,一般至少需要100毫秒。
人的神经速度是多快?当人听到一个东西并做出反馈,一般来讲大概100毫秒。大脑是反应比较慢的,如果是经过小脑,这个速度会更快一点,所以这也叫下意识的动作或者行为,但是它会有一个延迟。有一个简单的测试是帮助大家测试自己的反应时间的,一般成年人在250毫秒左右,这包含了大脑做出反应再驱动自己的四肢的时间。
https://humanbenchmark.com/tests/reactiontime
假设人的极限反应时间是100毫秒,如果AI能够在自动驾驶里把各种判断和操作控制在100毫秒以内,那么这个速度是好于大部分人类的。
PART. 4
举个简单的例子,如果说用iPhone的视频来记录大家的一生,这个成本大概是多少?做技术的同学都非常关注性能和成本,成本是决定一个技术是否能普及的关键。我们简单地计算一下,每分钟的视频文件375MB,每TB的磁盘成本750人民币,100年的记录成本大概是388万,也并不是一个天文数字。
如果这个成本能降到10万以内,相信很多有钱人会比较感兴趣,毕竟这个数字化的一生作为墓志铭会更容易让后人记住。如果有办法把一生记录下来,AI可以足够懂你,并在100毫秒内做出自己的判断,不停地与人类动作进行比较。那么最终用AI来模拟人类的行为,就变得非常现实了。
技术的迭代和成本的下降会不会让元宇宙突然到来?以蓝牙耳机为例,蓝牙耳机的几个痛点——延时、成本和续航。在2015年之前也有很多人用蓝牙耳机,但它始终是个小众的领域,一年规模大概不到10亿美元。以前的蓝牙耳机无法把时延稳定在100毫秒以内,所以大家用蓝牙耳机沟通的时候总是有障碍,不知道自己说完后对方是否想开口说话,这个100毫米的门槛就让蓝牙耳机的体验跟真实物理世界的体验相差甚远。当苹果的AirPods蓝牙耳机稳定地把延时做到100毫秒以内,这个市场就爆发了,增长了几十倍。
大家可以想象,关于元宇宙和数字原生世界的一些设想,当成本和延时满足大家的需求时,这个市场可能就跟2015年以后的蓝牙耳机一样,突然之间爆发起来。而且它引发的AI技术的进步,也可能超过大家的预期。今天我们有时候觉得AI特别弱智,你问的很多问题它都不懂,觉得AI没法get到你的点,主要还是因为AI的数据积累还不够,AI没有完整连续的数据和偏差纠正。
但是元宇宙并不能简单地依赖视频存储和计算成本的下降。在今天,视频的转化效果非常高,像抖音、视频号等各种视频充斥着大家的生活,大家看到自己想要的东西就会有购买的冲动。但是从技术的角度来讲,视频并不是一个元宇宙的最优的数据结构,它不好做分析,也不适合做数据共享。跟视频比起来,类似于UE5(虚幻引擎)这样的数字孪生模型可能会更合适。比如在公园里拍视频,几万个游客可能会制作几万个视频,文件非常大。但是如果将公园制作成虚幻引擎的模型,大家就可以共用一个模型来制作自己的故事,就跟《西部世界》一样,每个人都能在同样一个场景里活出不同的故事。游客可以用各种不同的虚拟摄像机机位去体验它,这样就大幅降低了制作成本。视频与虚幻引擎相比,大概相当于Hadoop跟TIDB/OceanBase数据库的对比吧,结构化的数据更容易做分析和处理。
今天游戏引擎产生的视频已经可以以假乱真了,在计算机图形学顶级会议SIGGRAPH 2021上,英伟达通过一部纪录片自曝:在2021年4月份那场GTC发布会的视频中,有14秒的时间黄仁勋是AI合成的特效,利用其3D仿真模拟平台“重组”了虚拟的黄仁勋。如果技术进一步提升,成本进一步下降,相信在虚拟场景中制造视频的成本将会低于人类的制作成本。那时候记录你的一生其实也不需要那么大的数据量,因为大部分背景都是公共的场景。如果记录你的场景数据能够在100毫秒内传输到云端并处理完毕,那么元宇宙的爆发点可能也不远了。
对于这个时间点,你觉得会是几年呢?
作者介绍:
沈旸先生,现任神州数码集团股份有限公司副总裁兼CIO,云基地负责人,集团技术委员会委员。主导集团数字化转型、数字中台、营销私域运营等,领导分布式数据库、开源ERP、SAAS等领域的开发管理工作。是信息技术领域超过12年的专业技术专家。
在加入神州数码之前,曾在SAP美国公司担任7年技术架构师,领导数据分析,EPM(企业绩效管理)和GRC(治理,风险与合规)领域的国际专业服务团队。为150多家世界500强客户提供过数字化转型咨询服务。
相关阅读: