其他
元象XVERSE:3D 未来已来
如今,生活在 3D 中。疫情期间,ICML、ICLR、CVPR 等人工智能顶级会议都改为线上举办。而佛罗里达国际大学计算机系的一位博士,则决定在游戏《动物森友会》中举办首届 ACAI 大会。这个 3D 版 AI 大会不仅接收了多个主题的论文,还给每位嘉宾 15 分钟演讲和 5 分钟问答时间,非常像模像样了。
唯一可惜的是游戏内有人数限制,最多容纳 5 名观众,其他人要用 Zoom 看直播。嘉宾演讲后也得让位,离开去其他 3D 小岛休息茶歇。
而在更多行业里,3D 慢慢成为一项通用基础技术。
在农业、制造业到建筑业等第一、第二产业的代表领域,出现了以 3D 仿真模型为核心打造的信息交换共享平台,具有可视化、参数化、可交互到全周期等优势,从一片冬小麦、一个车间、一幢摩天大楼、到一整个城市,都能实现场景中各项要素数字化和虚拟化、状态实时化和可视化、及管理决策协同化和智能化。
农业:中国农业科学院学者基于冬小麦研发的 3D 系统,能精确模拟小麦、玉米和水稻等大田作物不同条件下的生长过程和形态结构,对产量和品种适应性进行数据分析和展示。
二、3D 升维势不可挡
不管是虚拟现实化( 3D在生活中 ),现实虚拟化( 生活在3D中 ),或是虚拟现实不分,3D 的魅力从何而来?
可能很大依赖于 3D 天生具备的「仿真世界最强能力」。
这体现在:一、空间仿真,在二维平面中加入纵深感,让物体、人物和场景能有立体和全方位的展示交互,效果与真实世界相似;此外还能在空间里叠加复杂运动,产生炫目效果,比如电影《失控玩家》开篇的飙车镜头,逼真又动感强烈,有效增强了内容的表现力和感染力。
三、物理特性仿真,能模拟出力反馈、碰撞、爆炸、织物飘动、液体流动等物理特性,让动作具备真实性;还能通过 3D 渲染准确模拟光效,呈现自然光效和细腻质感。
这种天生优势,几乎预示了 3D 信息升维势不可挡的命运。
回看历史,信息的发展历经了口语、文字到数字时代三个阶段。在口语时代,人的交流被限制在面对面场景里。到文字时代,信息能跨越时间和空间,延伸人类语言,但也丢失了声音、视觉这两个生物学的传播成份。
到数字时代,互联网成为信息不断升级的推手,从一维的电报邮件,到二维图片、声音的普及,再升级到图片、声音加时间序列的 2.5 维视频……现在,融合了文字、视觉、听觉,还能打破时间、空间甚至物理规则束缚的 3D 信息时代正蓄势待发。
那我们是否具备生产海量高品质 3D 内容的能力呢?
传统 3D 影视制作有两种主要方法,一种是双机实拍,但适用范围窄、成本高。适用范围窄主要体现在双机拍摄过程中,镜头无法处理远景、聚焦及强光照等情况 ,导致 3D 实拍对题材和镜头有诸多限制。
另一种是拍摄影片后再转制为 3D 格式,目前这套技术已非常成熟,但也存在问题,一部两小时电影需要大量人力逐帧转制,经过「图像分割-立体绘制-背景补图-合成渲染」流程需几个月时间,而国内院线级电影转制费不低,参考 2012 年《泰坦尼克号》重置版转制费用为 1800 万美元。
传统 3D 模型则有三种生产方法,一种利用三维编辑软件建模,原理是将一些基本几何元素,通过一系列几何操作,构建出复杂几何场景,主要用于虚拟场景构建和三维模型再加工。
二是通过仪器设备测量建模,主要利用三维扫描仪对实际物体扫描,将物体立体彩色信息转换为数字信号,最后输出包含物体表面每个采样点的三维空间坐标和色彩数字模型文件,可直接用于二次加工利用。
三、利用图像或视频建模,即利用二维图像恢复景物的三维几何结构,要使用多张多角度图片自动匹配、分解、拼合,还原三维结构,包括网格及纹理信息。
再看历史,互联网发展一直是以信息为中心,贯穿信息的生产、传递和消费方式全流程,推进提效、降本、扩容三项工作。可预见的,3D 时代下一代互联网,仍将高效提供高品质信息,并推动 3D 信息大众化。
从这一发展规律判断,我们认为未来的 3D 内容将向大场景、沉浸感趋势发展,并要求多项底层技术不断进化,以适应未来智能化、高效率发展要求。
(1)大场景
这体现在虚拟世界的空间构建层面,要以广阔地图、大量角色和丰富细节仿真世界的巨大、复杂和多元性。
这涉及到流程中多个环节的技术,包括 1、美术侧的环境、物体和角色表现,从主题选择、情景设计和细节打磨等;2、利用程序化生成减小文件体积、扩大内容量、增强内容随机性,从而大规模、高效率制作出符合相应时代美学、规划和规则的自然环境、住宅、建筑物和工厂等;3、海量模型资源的渲染与储存;4、与图形引擎打通的图像编解码技术,提高渲染质量,充分利用带宽;5、以及依靠 5G 和云计算实现海量内容分发。
(2)沉浸感
体验心理学名作《心流》曾指出,沉浸就是专注在当前目标情境下(由设计师创造),人感到愉悦和满足,而忘记真实世界的情境。
它既包括人的感官体验,又包括认知体验。比如游乐园提供的“身临其境”,KTV 里灯光效果营造黑夜白昼不分,就是感官刺激,而下围棋时全神贯注,是将人的技能和挑战相匹配,产生了认知体验。而这对技术的要求包括:
1、逼真画面实现。传统的终端渲染模式,受限于个人计算机 GPU 渲染能力,画面像素精细度距拟真效果仍有很大差距,因此需要关注引擎、算法、算力提升驱动渲染模式升级。
2、智能 NPC 。能自发生产出足够多、足够自然的内容。在传统游戏世界中,NPC(非游戏玩家)一般是基于既定程序的“人偶”,其对话和行为跳不出程序设定的框架,因此会表现得非常生硬死板,容易让参与者出戏。而基于强化学习与自然语言处理算法打造出智能数字人或 NPC 后,人物将具备自己的性格、设定和逻辑,能自发自驱地在虚拟世界中与人、场、物交互,生产足够多和足够好的内容,让参与者深入其中。
3、交互手段。以往参与者被禁锢在垂直屏幕显示,和键盘、鼠标、手柄等硬件操作工具中,而 2D 向 3D 升维带来的立体感,让参与者能自由切换视角,或体验到基于 VR 和 AR 开发的下一代人机交互,以更自然拟真的操作和高频智能的反馈方式,全面提升沉浸感。
4、实时性。确保高清流畅的画面和即时自然的交互是沉浸感的前提,因为技术面对的是一个数据量极大,计算量极大、并需要即时反馈的场景,而传统计算方式面临高并发下的源站压力和带宽压力,以及存储、延迟方面的挑战,因此需持续关注通讯基础设施、云计算和边缘计算方面的进展。
当然,在高品质 3D 内容基础上,如何通过智能、高效的方法持续提升 PGC 生产效率 和 UGC 创作热情,形成一个可持续创作的内容生态;如何通过利用底层技术普及大幅提升用户体验,推进技术的应用深度,将是行业持续发力的方向。
一元复始,万象更新,一个充满无限可能的未来正在到来,而我们希望每个人都能在其中自由「Redefine Your World(定义你的世界)」。