元象XVERSE 2023:拥抱数实融合、AI驱动的3D未来
元宇宙行业也逐渐从狂热到更为理性,推动去伪存真,稳步前进。作为一线从业者,在回顾我们的实践与探索经验时,我们深刻认识到,用传统方法推动行业3D化,是一件颇具挑战的事。
3D未来,是技术、艺术与商业革新的未来,但首先,是技术驱动的未来。
我们引领性地提出了“端云协同”3D互动路线,始终坚持自研引擎,以硬核AI算法驱动,突破传统端、云方案的桎梏,持续降低使用门槛与制作成本,开创“轻、快、美”的全新元宇宙体验。
我们相信,去做难而正确的事,创造真正的价值,才能不断迈向每个人自由「定义你的世界」的愿景。
应用
1. 商业落地
1.1 感谢多方支持与认可
3月11日是我们成立一周年的日子,也完成了A与A+轮共计1.2亿美元融资,感谢投资人的信任、支持与帮助。
客户是价值之源。今年我们非常有幸与众多行业先锋同行,推动数实融合的3D化创新。
一路走来,感谢行业机构与媒体的多方认可。
1.2 行业先锋同行 数实融合创新
11月1日,我们在元宇宙直播中发布企业、个人与伙伴方案,企业可负担,用户零门槛,伙伴共收益,将是我们持续创新的动力。
虚拟演出:手机上支持庞大世界中海量用户的实时互动,需要网络、存储到计算I/O发挥极致性能,最能看出技术含金量。在2021跨年夜,我们与腾讯音乐娱乐集团TMELAND打造的虚拟音乐嘉年华,成为百万级用户在线的超大型虚拟演唱会与直播“样板”。之后与中央电视台合作的“数实融合五四特别节目”,也是在无需下载app的情况下,国内技术能实现的最大虚拟会场。
中央电视台首个“数实融合”五四特别节目
汽车行业:3D升维信息优势,让元宇宙具备了超级内容潜力。在汽车行业,我们与一汽大众揽巡推出了业界首个类游戏元宇宙发布会(详情),将互动冒险剧情与超现实场景创新性融合。用户不再只是观众,更是影片主演和游戏玩家,与揽巡一起创造出属于自己的“巡梦之旅”。我们还在用AI算法打造面向未来的方案,包括用AIGC引领汽车个性化概念设计、NeRF算法创造数实融合试驾体验、到虚拟人推动智能座舱进化等。
一汽大众行业首个类游戏元宇宙发布会
快消行业:我们与阿迪达斯、百事可乐、雪碧、肯德基等众多快消领域龙头合作。与可口可乐粉丝节打造的业界首个一站式宠粉街区中,一个中心聚集了八个品牌、300+客户和多位艺人明星,邀请粉丝沉浸式逛街、娱乐、追星到领福利,元宇宙正在探索下一代用户中心的可能性。
可口可乐首个元宇宙粉丝节
文旅行业:我们为澳门与元宇宙创造了多次相遇,为澳门特区大三巴线下展览打造了超高仿真度场景与互动,期待打开文旅流量新蓝海。而CCTV首个融媒体汽车赛事节目《擎动中国》线上总决赛永久落户澳门,元象也基于大三巴、妈阁庙和港珠澳大桥等多个著名景点打造一座虚拟浮空岛,让用户沉浸感受融媒体全新体验。
大三巴多互动沉浸式展览
电商零售:埃森哲在《技术展望2022》报告中提到,83%的消费者对虚拟世界购物感兴趣。在电商领域,我们与曼卡龙珠宝、万科印力等客户探索了与直播结合的沉浸式购物体验。而为Milwaukee美沃奇电动工具打造的3D购物空间,一改工业产品的抽象复杂,场景化、沉浸式传递了工具的力与美,打开了未来购物新世界。
美沃奇电动工具首个沉浸式3D商店
3D门户:与国产芯片领军企业燧原科技、中科院深圳先进院、中国邮储银行等多个行业客户,在3D官网与品牌空间方向不断探索。借助3D所见即所得到超所得的信息优势,元宇宙能全面传递出偏体验性的品牌理念、抽象复杂的产品服务等,还能获取全景性的用户反馈,成为数智营销的基础。
硬核
2. 技术驱动
3D未来,首先是技术驱动的未来,需要多技术融合、产学研用高度协同的系统创新。
2.1 自主可控、产研协同
目前海外3D端上引擎几乎控制了B端市场,而国内看重手机端体验、轻量化小程序、行业开始3D化的趋势,为研发差异化技术和细分需求产品,提供了市场空间。
我们坚持技术自立自强,聚集了业界领先的算法和工程团队,以自研引擎与AI算法驱动,突破传统端、云方案桎梏,提出了原创性、引领性的「端云协同」3D互动技术。
我们还与学界最顶尖的科学家与实验室合作,推动产学研用的协同创新。
在图形学领域,与顶级学者,直接推动工业界光线追踪GPU架构发展的UCSB大学教授闫令琪博士合作,共同探索实时渲染与光照烘培方面前沿技术与应用。并对图形学前沿趋势展望、顶级学术会议SIGGRAPH上的最新技术进行定期交流。
在语音领域,与清华大学人机语音交互实验室合作,探索Music2Dance、表现力语音合成、歌声合成等前沿多模态语音交互技术,合作的三篇论文已被语音领域旗舰国际会议INTERSPEECH录用。
在自然语言处理领域,与哈工大社会计算与信息检索研究中心在事实一致性的对话生成等前沿领域协同合作。
2.2 端云协同迭代
端云协同解决了纯端架构大量依赖端侧算力,对PC或手机等终端设备的性能要求高的痛点,又解决了纯云方案中云服务成本高、网络带宽影响运行卡顿,或者WebGL云方案无法支持复杂场景和动效细节等问题,是一个“进可攻退可守”的方案。
从体验上,它随时支持任意设备(电脑、平板、手机,并可扩展到VR/AR),以任意性能(不同价位配置机器)和任意方式(网页、小程序、客户端),快速访问庞大、逼真、丰富的「美丽」新世界。
聚焦轻、快、美的全新3D体验,「端云协同」技术在高性能、低功耗、轻快小方向不断迭代。具体而言:
2.2.1 端云引擎协同迭代
实时通信:操控流畅度和音视频清晰度是RTC实时通信技术的两大核心迭代方向。元象创新性地解决了基于WebRTC Web应用的端云帧同步这一困扰业界的难题,升级至硬件解码和1080P画质。
自研编解码器压缩效率持续提升,和端/云/网路的协同度进一步提高,在利用平滑码率减少卡顿并保证高品质视觉效果上独具技术优势。自研网络传输技术会根据可靠性、延时性、优先级等不同要求配置灵活解决方案,满足不同种类数据的传输需求,在网络质量反馈、进房成功率、弱网对抗能力方面提升明显。
同服规模:同服代表用户“真实地”位于同一个虚拟世界,理想状况下,所有人都能在一个服务器(世界)交互,但面对端游算力限制和云游戏服务成本高问题,万人规模同服技术挑战很高。
我们的端云协同方案利用AOI相位优化、分布式架构、高性能消息同步机制等后台设计,已支持20万人规模同服,同时系统具备了根据需要扩容支持的水平拓展能力,为“同一个世界,同一个体验”打下了基础。
2.2.2 端引擎迭代
多人同屏:用户互动让3D内容有了更长久的生命力,而多人同屏突破技术上限,让内容设计有了更多可能性。我们使用顶点动画纹理和角色动态LOD技术,提升渲染和用户逻辑处理能力,将手机端多人同屏数提高到30人,PC端则超千人。
动态仿真:逼真是营造沉浸感的关键。我们增强了角色物理仿真能力,让角色身体动作变化时,衣服布料和头发能呈现出真实自然的动态效果,提升了美术表现力。布料仿真在3A级游戏中几乎是标配,但由于计算量庞大,在手机小程序上只有少数几款能做到或小范围使用。此外,我们还完善了特效和演出时间线系统,提升了动态内容制作效率。
布料毛发仿真:在手机实现服装与头发的逼真自然的动态效果
空间音频:声音是让人感知3D世界的重要能力,它无处不在,但与视觉相比却容易被忽略。我们研发了空间音频引擎模块(详情),可根据区域、方向、距离衰减等不同需求快速配置3D场景音源和音效;而且通过音源分离、实时音频通讯等技术,支持用户组建虚拟乐队、跟朋友一起听、边走边说、靠近说悄悄话等多样化需求,感受更有方向、层次和空间感的音效。
QQ音乐Michael Jackson VR专辑空间音效
(请佩戴耳机收听)
2.2.3 云引擎迭代
引擎升级:云方案主要的痛点在于高昂的计算成本和云上控制的高延迟、低灵活度。我们对自研的云原生实时渲染引擎进行了架构升级和计算优化,将场景生产速度提升10倍以上,利用异构计算和动态伸缩技术,降低了近90%的计算成本。
3C控制:3C是最早由育碧(Ubisoft)提出游戏设计三元素,指用户输入操作(Control)后,虚拟角色(Character)响应,再到这一帧画面被相机(Camera)记录下来的过程,它关系到内容丰富互动性、用户代入感和沉浸体验创造,是游戏核心体验的体现。它看起来很基础,但涉及到动画、渲染、物理、同步等多项开发技术及大量美术工作,颇具挑战性。
我们研发了有元象特色的3C方案,能充分发挥端云协同优势,通过视频流+指令的Gameplay系统,以及传输、码流、控制、联动等四层架构的策略优化,支持第一、三人称点击、摇杆等多种操控方式,走、跑、跳、驾驶等丰富的移动方式,整体提升了体验的流畅性、灵活性与实时性。未来也将持续降本增效,提供更丰富的空间交互和视角合成等能力。
2.3 AIGC算法驱动
2022年是AI大放异彩的一年,9月大热的AI绘画,到11月ChatGPT横空出世,都属于AIGC这一概念,即生成式AI,它也入选顶级学术期刊《Science》的年度科学十大突破。除了艺术创作,AI还在科学、数学和编程等领域展现了强劲创造力。毫无疑问,人类利用AI扩展创造力只是一个时间问题。
2.3.1 AIGC 3D内容的挑战
事实上,AIGC已经历经多年研究,近期的强烈感知得益于AI在CV和NLP两个子领域的交叉研究结果,包括图像生成式模型VAE、GAN、Diffusion model、自然语言处理模型GPT,及文本图像对齐模型CLIP等。
对比AI生成的文字、图像和视频等2D内容,AI生成3D内容还处于较初级阶段,主要挑战在于数据稀缺。3D内容由于制作门槛高、周期长、价格贵,主要由PGC(专业生成内容)团队贡献数据,积累速度慢。
元象团队有深厚的AI底蕴,帮助创建了腾讯AI实验室,现聚集了大量学界与工业界的顶尖算法科学家与工程师,从一开始就坚定了自研引擎与硬核AI驱动的技术路线,目前我们在智能的场景,以及智能的人两个方向上进行制作与呈现的提效降本。
2.3.2 AIGC x 智能场景
2022年3月,我们分享了「AI生成3D大世界」的完整程序化工作流,采用了从文字到图片、再从图片到3D内容的生成思路,让AI助力大规模和复杂场景生成,包括了室内大世界和室内空间。与业界已有的方案相比,我们的差异化优势在于:提供更多现成的3D资产、更智能的AI辅助设计和更低门槛的生产工具。
生成室外大世界:我们对标3A游戏程序化生成能力,实现了美术输入2D图形提示,AI生成城市级别的路网、沿路摆件、楼房、植被、地形等,支持一键自动化生成和辅助手动生成的灵活调整(实现过程详情)。
举个例子,如果要生成深圳城市的3D路网,内部美术团队只需用2D图形勾勒道路,技术团队利用GAN和扩散模型等算法生成路网模型,再结合地理位置信息和航拍数据等,使用计算机视觉最擅长的识别和分割类任务进行路网划分和判定,在不同位置设置相应3D模型,从而将路网3D化(实现过程详情)。
生成室内空间:我们设计了极简交互界面,用户只需画几个方形区域并标注其功能,选择喜爱风格,就能生成对应的个性化3D空间。
2.3.3 AIGC x 智能的人
传统的NPC(非玩家角色)是游戏中的虚拟工具,可以跟用户互动,做功能介绍或引导,相当于一个中介;还有一部分作为背景人物活跃游戏氛围,没有实际交互。UGC(用户生成内容)和PGC(专业生成内容)等传统生产方式无法满足元宇宙时代的海量3D内容需要,让AIGC有了发展空间。下一代智能NPC将在AI驱动下具备更高智商和情商,如《西部世界》或《头号玩家》般驱动剧情发展,生成更真实和沉浸的内容。
口型表情驱动:人说话的面部表情、唇部动作,甚至是头部与肢体的动作都可以帮助听众理解对话内容。视觉和听觉的双模态信息融合的交互方式,不仅能提高用户对内容的理解度,还能提供一种更为准确的交互体验。我们研发了流式实时低延迟的AI多模态语音交互技术,输入文字,就能实时生成虚拟人的语音、口型、脸部表情的精准动画,提供了更友好的人机交互。
动作舞蹈生成:我们研发了AI视频动捕算法,输入视频,就能生成虚拟人的日常动作和高难度舞蹈。其中无穿戴视频动捕方案,使用透视投影相机模型估计、自动防滑步处理、基于物理碰撞的自穿插检测与处理的改进,即使只有单目RGB,效果仍优于国内外众多方案。
我们还研发了“闻歌起舞“算法,自研GTN-BAILANDO模型,输入音乐,就能生成节奏和风格精准匹配、兼具个性化和多样性的舞蹈动作,提高了舞蹈的艺术性和观赏度。通过重点提升可编辑性,用户人工编排舞蹈动作,算法能自动融合进舞蹈动作上下文,利用人机协作产生高质量内容。
GTN-BAILANDO模型:输入音乐 AI生成适配舞蹈
自然语言理解:我们打造了功能性和氛围性两套NPC方案,前者能带看讲解,后者提升场景氛围,丰富了3D玩法;扩展了问答系统,为不同场景快速生成定制化FAQ,并支持引导式对话功能,聊天时进行话题延伸、推荐和跳转,及古诗、成语、谜语、笑话、故事等微垂类问答能力。
2023
3. 商业与技术展望
麦肯锡则预测到2030年,元宇宙价值将达到5万亿美元,相当于当今世界第三大经济体日本的经济规模。在《2023中国数字营销趋势报告》中,元宇宙是最受期待的未来应用,57%的品牌已经或计划2年内使用。2023年可能是确定其发展方向的关键一年。
回顾过去一年经验与发展,我们认为2023年可能会呈现几个关键发展:
3.1 商业展望
元宇宙产业生态初步构建,迎来产品升级和行业融合应用为主线的战略窗口期。每一个移动互联网中创造的行业机会,都在虚拟世界中等待新的商业价值探索。
数实融合:从营销到消费,从文旅到娱乐,从汽车到地产,从金融到科技,数实融合将成为数字经济重点产业,以数字化转型整体驱动生产方式、生活方式和治理方式变革,催生新产业新业态新模式,壮大经济发展新引擎。
品效销合一:从品牌营销拓展到效果营销,在个性化广告、全景式数据洞察、与直播私域多营销形式融合等方向继续发展,打通品效销合一全链路,深化数智营销应用。
端到端方案:从元宇宙行业自身看,由于品牌需求提升,“端到端”一站式方案将更具优势,将品牌世界观设计、业务价值闭环、策略-创意-IP-运营聚合、安全稳定研发上线,确保技术创新与数实融合闭环实现。
营销元宇宙:消费者一直在寻找新的、更具吸引力的方式来与品牌建立联系。营销和广告将提供推动元宇宙进入主流的燃料。在汽车、奢侈品与消费行业头部企业纷纷试水后,2023年元宇宙寻求常态化运营,从一次性的发布会、会展或品牌空间,到与直播、IP、私域俱乐部等多种营销形式创新性组合,实现打造更大的品牌Land和长效运营机制。
产业元宇宙:除了作为营销工具的强大功能之外,元宇宙还承诺提供平台、工具和整个虚拟世界,让业务可以远程、高效和智能地完成。在文旅、金融、企业服务等行业,后疫情时代将见证企业数实融合平台的持续迭代。比如在文旅行业,通过将线上3D体验与VR等线下设备结合的创新增值服务,或将传统的景区预约、讲解、云游方案进行3D化升级,打造高沉浸、高参与的高维升级体验,在体验后能一键分享进行社交裂变的长尾流量获取等。
社交元宇宙:新世代将越来越习惯于在虚拟世界中扮演角色或表达自身想法,打造自己的第二人生。除了与腾讯音乐娱乐集团TMELAND继续深入探索音乐元宇宙的多重可能性,我们还将更多行业伙伴挖掘虚拟形象和场景化社交的商业价值,借助社交属性在元宇宙商业生态构建的推动力下,探索相应经济体系的可能性,让用户实现娱乐、互动、交易等更多体验。
3.2 技术展望
3.2.1 AIGC继续前行
AI生成虚拟场景方面,我们将重点研究NeRF算法重建场景和虚实混合渲染相关技术,利用NeRF强大的隐式表达三维重建能力,低成本地将真实世界搬到元宇宙中,也可以和我们的端云协同渲染技术结合,进行虚实混合渲染,拓展元宇宙与真实世界“全真互联”的能力。
AI生成虚拟物品方面,我们将扩散模型(Diffusion Models)等新一代AI生成式神经网络模型用于3D模型的个性化设计与生成,并应用到汽车、家居和玩具手办等行业中。与市面上常见的AI生成2D图片不同,此类生成将升维到3D模型,可以自然融入虚拟场景中并创造更多玩法,比如生成虚拟汽车后,可以在不同场景中展示和试驾。
AIGC生成歌舞方面,我们将研发歌声合成技术,支持控制能量、风格、情感、演唱技巧等维度变化,探索歌声音色转换和音色克隆,提升数字人表现力;进一步拓展舞蹈生成能力,探索舞蹈轨迹编辑、多人舞蹈互动,以及图像、文本、音乐的多模态的舞蹈生成能力。
AI生成文本方面,我们将使用ChatGPT和WebGPT等技术,优化生成式对话系统普遍存在的事实一致性问题,同时将用户画像数据洞察融入现有问答系统,提升虚拟人的语言能力。
3.2.2 数字人
数字人是元宇宙核心要素,也是大量企业进入元宇宙的切入口。目前其应用和变现大部分偏品牌营销,而偏效果营销的,比如针对用户画像生成的个性化的数字人内容,这个领域潜能还有待挖掘,通过数字人推动品效销合一,生产提效降本,是未来可以持续迭代和探索的方向。
我们也将推出有元象特色的数字人解决方案,其特色包括:一是多样性,以AI为驱动,利用移动端和云上算力的分布差异,推出多种不同精度、可自定义的数字人重建与渲染方案;二是融合性,将数字人与虚拟场景、虚拟物品等元宇宙元素结合,利用三者交互产生更多玩法和互动可能;三是场景化,将数字人和汽车、文旅、金融和虚拟演出等行业客户需求深入结合;四是智能化,将数字人技术与强化学习、语音处理、自然语言处理等AI子领域结合和多模态处理,全面提升数字人的决策与语言智能。
此外元象也将探索打造具有自主IP的高精度数字人,用于虚拟直播、广告拍摄等场景。
3.2.3 人机语音交互
语音语言是人类日常最常见的交互方式,我们将自研全链路多模态语音交互能力。语音识别技术让用户在3D世界中摆脱2D键盘和屏幕带来的交互限制;多模态表情手势语音合成和音色转换技术,可定制多样化、更自然、具有独特风格和情绪的音色,生动的自然的表情和肢体动作,满足虚拟身份的个性化,与NPC交流时更是“真假难辨”。
3.2.4 VR/AR
端云协同方案的「轻」,让它天生具备了跨终端优势,我们将把端云协同渲染方案扩展到VR/AR等头显设备上,帮助其解决一体机算力不足的问题,让用户在新终端上也能享受元象能支持庞大复杂场景、逼真画质和精美细节的「美」好3D体验。
- 关于我们 -
- 推荐阅读 -