数字栩生翁冬冬:超写实数字人像人很难,但有必要 | Founder 100
做数字人很难,尤其是超写实数字人,可是到底难在哪里?
「所有和做人相关的行业,一定会遇到恐怖谷理论」,数字栩生联合创始人 & CTO 翁冬冬这么解释道。接下来的难度则是如何让静态数字人像人、如何让动态数字人像人,以及如何让数字人的交互像人。
「要想真的像人,应该是主动和人进行互动,元宇宙也好,VR 也好,我们想要的是能进行互动的数字人。」对于理想中的数字人,翁冬冬是这么形容的。
相比较目前流行的二次元风格的虚拟数字人,超写实数字人落地的领域会有稍微的不同,企业客服、数字演员甚至法律顾问等与人们日常更相关的领域,对于未来的数字人商业前景,翁冬冬很有信心,掌握着用户各种信息的数字伴侣,「可以说是世界上最了解你的人」。
超写实数字人到底是如何生产的,技术难点在哪里,以及未来会如何改变我们的生活,关于这些问题,我们和翁冬冬进行了一次长谈,还聊到了数字人可能面临的法律风险等。
未来尚未到来,但我们可以提前做好准备。
做数字人就像考试,但不同的是考 80 分不及格,考 85 分也不及格,考到 90 分才算及格,不存在中间 60-70 分的过程。
要想让数字人真的像人,应该是主动和人进行互动,元宇宙也好,VR 也好,我们想要的是能进行互动的数字人。
如果数字人没有需求是不会像人的,不会害怕,不会希望保持自尊,做出来的只是机械的反应,不像人就没有办法共情,描绘的很多美好的应用场景也就不存在。
01
如何制作
超写实数字人?
Founder Park:数字栩生的技术解决方案是什么?具体有哪些案例?
翁冬冬:我们主要负责制作超写实的三维实时化的数字人。采用数字孪生的方式,通过把真实的演员进行复刻,采集演员的动态表情,生成完整的数字资产,这些数字资产未来可以用在数字直播、智能员工等领域。
典型的案例是我们和千博信息共同研发了一个数字手语主持人千言,在电视新闻播报的时候,屏幕左侧直接进行手语翻译帮助聋哑人理解新闻内容。通过人工智能和高写实数字人的结合,能够实现文本快速转换成手语动作,只要新闻主持人的稿件成型,我们就可以快速生成动画。
数字手语主持人千言 | 来源:数字栩生
另外我们还制作了偶像型以及游戏数字人,比较有代表性的是游戏《代号:降临》(现更名为《星球:重启》)里的李星澜,目前她有自己的抖音账户,会定期向外发布相关视频。还有在文化领域的应用,去年我们和中央戏剧学院合作了数字梅兰芳大师的复现项目,这是一个公益项目,我们希望通过数字技术把文化名人进行复现,把优秀文化通过新的技术进行结合和传播。
Founder Park:数字人到底是怎么生成的?有哪些技术解决方案?
翁冬冬:数字人技术领域已经发展了很多年,早年是电影行业对数字演员的需求比较多。传统数字人的构建是通过艺术家进行数字雕刻,把人物的脸型进行数字化建模,再通过骨骼绑定,生成可控制的数据角色。但这种数字人存在一个问题:人类的表情非常细腻,如果想做出动态表情非常逼真的数字人,要在前期做大量的工作,而且需要水平非常高的艺术家。
我们大概在五六年前进入这个领域,团队的技术背景是工科背景,都是工程师。所以想通过技术手段,甚至考虑未来以工厂化的方式来生产数字人。
直观来看,传统方式更像画家在画画,而我们采用的方式是造一台照相机来快速拍照,同样也可以得到漂亮的画面。「照相机」就是我们所使用的数字孪生技术,首先对真实的演员进行采集,下图左侧的球状体以前叫 Light Ball,我们一般叫大球。这个大球上有非常多可控的 led 和阵列照相机,可以同时在不同光照的条件下多角度采集用户照片,生成三维的精准脸部测量结果。通过这些测量结果,再结合一系列后续的算法,可以对演员的表情进行准确复刻,同时还可以获得脸部的光学几何特征。通过这种照相方式,可以更高效、低成本地把数字人精准制作出来。
现在的采集精度基本是毫米级,根据需求能生成的纹理是 4k-8k。采集本身是一个完整的流程,非常快。一般采集一个人,把他所有的表情也就是大概五十几个全部采完,甚至包括几套妆容,大概只需三小时。根据后期客户的要求,基本上我们会在一到两个月内完成反复修改,最终实现交付。目前我们会更关注如何把流程更标准化、质量可控、时间可控。
Founder Park:从生产角度看,为什么以前做一个数字演员那么贵?贵在哪里?
翁冬冬:所有和「做」人相关的行业,一定会遇到恐怖谷理论,通过下图来阐述。图上横轴表示像人的程度,纵轴是大家对 Ta 的喜爱程度,下方有具体案例演示,最左侧是工业机器人,大家对它也不会有太多好感,但如果加上两个眼睛和圆脑袋,有点像小朋友,现在儿童机器人好多是这些。如果把它做得再像一点,比如第三张图要比第二个机器人更像人,大家肯定不会让自己的孩子和它玩。为什么明明更像人反而更可怕了,这就是恐怖谷理论。
恐怖谷理论 | 来源:数字栩生
第四张图的女性已经有皮肤,有基本的表情,也有头发,可我们看她依然会觉得很不舒服。最后一张图我们会觉得这个女孩很漂亮,其实她是一个数字人。当我们做类人形的创造物时,存在一个区域,当这个区域很像人,但又差一点点的时候,我们会对它产生恐怖,所以要想让做的人能被大家喜欢,要越过恐怖谷。
二次元数字人相对来说容易一些,一旦做超写实,会变得非常难。做数字人就像考试,但不同的是考 80 分不及格,考 85 分也不及格,考到 90 分才算及格,不存在中间 60-70 分的过程,这是数字人非常难做的情况。
人的认知里对人脸特别敏感,做数字人时有一个微小的差别,都能被感觉到,这是特别困难的地方。在学术界和工业界,一般做数字人会使用微妙这个词,这个词最准确地描述了做人的难度。现在我们已经能越过恐怖谷,但也不敢说完全越过,因为真正意义上越过恐怖谷,是静态和动态都要越过,这是「做」人最基本的要求。
超写实数字演员一直是电影界的期望,《星球大战》里第一个真正的数字演员不是超写实的人,而是一名外星人,因为做人太难,为了尽可能让角色活灵活现,所以最早的尝试是做外星人。
《星球大战》中的加·加·宾克斯 | 来源:数字栩生
另一位坚持做数字人的导演是卡梅隆,做《阿凡达》之前大概花了三个月的时间做技术测试,最早设计的潘多拉星人是希望能和人一样,但大家觉得结果太僵化了,最后加入了一些猫科动物的特征,把皮肤变成蓝色,可以掩盖一些表情上的误差。可能我们看起来认为很好,但从专业艺术家的角度来讲,人的表情还是非常僵的。
Founder Park:光场的技术路线具体是怎样的?
翁冬冬:如下图,红色大球就是我们的光场采集设备,分成两部分,一部分由一系列受控 led 组成,每个灯都由计算机控制。除了灯以外,我们还有 36+5 台的高分辨率照相机,目前用的是单反相机。使用时首先需要改变光照,每一个 led 都由我们控制,可以任意设置光源。不同的光照条件可以改变人脸表面的反射情况,这时让所有照相机同时拍照,可以得到同一光场下不同视角的图像。
广场采集设备 | 来源:数字栩生
目前很多影视公司也有类似的设备,一般叫相机阵列,原理相似,但区别在于我们的每个 led 前面有一个偏振滤光片,每个照相机的前面也有偏振滤光片。尤其像线偏光,它们互相垂直的时候可以过滤掉这样的光线。人脸是一个很复杂的表面,除了光线在内部传递后形成散射,表面还有一层油质,这层油膜会产生所谓的高光,高光反映了皮肤的光滑程度,但在获取皮肤颜色的时候,高光则是干扰。
传统相机阵列拍完照,三维重建得到的都是包含高光的纹理。我们则会小心地把这些高光分离出来,分成不同图片。有些图片不包含高光,用来生成皮肤真正的颜色。有些只留下高光,可以得到非常精细的皮肤表面的纹理结构,后面会配套更复杂的算法。
虽然光场看起来和相机阵列很接近,但实际上夹杂了很多新的技术。这个装置使用时会拍摄一系列极限表情,这些表情最早来源于脸部编码系统 FACS。我们基于 FACS 系统做了一些改进,能获得 50 多个甚至 70 多个极限表情。之后再拆分成 300-600 个基表情,最后通过这些基表情再进行合成,就得到完整重现出来的表情。目前在尝试用算法替代以前人工的方式,这是我们努力在做的事情,也是我们整个的生产流程。
FACS:来源于 FBI,他们请心理学家专门做了一套系统,把人脸能做的各种微表情进行分类,形成 50 多种基础表情。后来做影视动画的人借用了这套 FACS 系统,因为它完整描述了人脸能做出的各种极限表情。
Founder Park:光场技术下一步的趋势是什么?
翁冬冬:用光场采集能非常准确地获取静态表情,比如做一个很奇怪的表情,一瞬间完成各角度的拍照。但目前重构人的表情是基于极限表情进行拆分获得的。人在做表情的时候不是线性的关系,比如张大嘴到闭嘴的过程,目前我们会用线性插值的方式或二次插值的方式生成中间细节的形态,但还是不够的。
静态数字人的照片很多,但数字偶像的动态视频很少,尤其是面部做各种丰富表情或者唱歌的视频。为了让这些表情更生动,就要获取更多的表情。我们现在大概 3 个小时扫描会有 50 多个基础表情,但如果真的能采 5000 个表情,基本上能覆盖这个人能做到的各种表情。
悲观来看五年之后我们完全不需要这样采集,除非需要一个全新的特别高精的人。现在主流的工业方法已经从以前基于纯粹最优化的解决工程问题的方式提升到完全通过深度学习、通过算力来解决问题的思路上。如果有足够多的数据,我们可以训练非常具有创造性的网络来解决问题,使用网络的成本非常低,训练这些网络的技术目前也基本存在,但前提是要有足够多、足够好的数据。
Founder Park:现有的「表情数据迁移」技术对行业的发展有什么影响?
翁冬冬:高端客户对定制化的要求很高,我们会采集每一位演员的表情,生成个性化的整套资产。未来可能我们要做 ToC 的内容,比如在元宇宙里构建了一个世界,每个人进去需要用自己的脸建模,这时最简单的办法是使用用户自己的少量数据结合已经采集的和长相相似的其他人的数据,快速生成高质量资产,这是有可能的,目前的技术也支持。
在这种情况下,成本会低很多,甚至十倍左右降低成本都是有可能的。而且随着数据越来越完善,效果也在提升,成本还能降更低。至于不同人表情是否匹配的问题,这有赖于我们构建一个更丰富的数据库。也许未来有更具有创造性的 AI 算法,算法本身可以弥补缺失的数据,这都是有可能的。
02
超写实数字人的
技术挑战和应用前景
Founder Park:在创新制作数字人的过程中最实际的难题是什么?
翁冬冬:VR、人机交互和图形学的研究我做了近 20 年,前几年因为在电影学院做特邀研究员,方向是做沉浸式叙事,我们开始结合 VR 和故事,向 VR 影片进步,做真正的三维交互的 VR 影片。
首先要解决的问题是演员,我们大概定的目标是一年半时间,当时也组织了国内头部企业一起研究。一年半后我发现连论文还没看完,因为人分好多部分,人的表情驱动、皮肤、眼睛、头发,包括肢体动作捕捉等一系列相关的论文太多,不一定每篇都要读,但还是要花很多时间了解前辈们做过的事情。后来稍微对这个体系结构有了宏观的认识,有些问题到今天也不能说解决得都很好,只能说有一定能力去解决。
所以我一直强调超写实数字人不管是学术界,还是行业内,目前还处于起步阶段,这里面的技术点非常多,后面会有更惊人的结果。
动视在 2013 年制作的游戏 NPC 演示 | 来源:互联网
这张图来源于 2013 年,还是非常好看的,有很多细节。做成这样的细节有非常多的步骤,做人脸的时候会用一个词——微妙的变化。有时花很大力气写了特别长的公式,堆了一堆的算法,改变的仅是一点点,一定要对比才看得出来。同行都知道做数字人一定要用双页的反射函数,单页的会像蜡像,我们做这么多的工作想加入的就是一点点更像人的高光反射。在高光反射的基础上,还需要加入一些微结构,做到毛孔级,加入这些细节才能让做的人看起来更逼真。
人脸是图形学里非常集中、有代表性的研究方向,涉及到过去 20 年各种各样的算法,并不是简单的通过一个算法就能搞定,可能有二十几种算法,解决同一个问题也有三四种不同的方法,需要根据情况进行选择。现在还有深度学习的内容,知识体系非常复杂。这是数字人难的地方,也是有意思的地方,有更多细节可以挖掘。
我们花了 6 年时间终于明白仅有鼻子、眼睛、法线是不行的,还要有更多东西,才会有更好的结果。
Founder Park:超写实数字人面临哪些核心挑战?
翁冬冬:我们的核心是创造一个很像人的形象。为了像人会有几个层次,首先尽可能在外貌上像人,又可以分为静态的时候像人和动起来像人。
如果希望静态像人,会涉及一系列具体的技术细节,比如光场扫描、皮肤的渲染技术、毛发的渲染,还有眼球的系统,包括泪腺、虹膜、双眼的聚焦等,我们最害怕艺术家说这个人眼睛没有神,什么叫做没有神?艺术家觉得没有神已经表达得非常具体。话语体系的缺失本身就是一个问题,因为跨界很多,这也是我们目前尽可能想办法解决的问题。
动态还有更多问题,比如如何快速进行 4D 扫描、脸部表情如何实时驱动。现在静态的部分基本上可以达到 90 分以上,用的时间精力多一点,静态部分有可能达到 95 分,但只要动起来就立刻打回原形,稍微不慎就回到 50 分了。需要花很多心思做动态的部分,把表情做到足够好,动起来不僵硬等。
另一部分难的是怎么让行为像人,目前数字人动起来只是按照固定的方式。但要想真的像人,应该是主动和人进行互动,元宇宙也好,VR 也好,我们想要的是能进行互动的数字人。所以数字人的行为是目前缺失最多的研究方向,产品上也是。
有一个非常有名的理论是 7/38/55 理论,意思是沟通的时候只有 7% 是通过文字本身传递的,说话的语速、语音、声调传达了剩下的 38%,另外 55% 是形象,这也是电话里说不清楚见面聊的原因,因为见面时传递的信息是完整的,有时非常重要。现在做语音 AI 的这些人主要考虑的还是声音部分,但即使有 38% 的声音、语调仍不是很完美。
如果数字人没有需求是不会像人的,不会害怕,不会希望保持自尊,做出来的只是机械的反应,不像人就没有办法共情,描绘的很多美好的应用场景也就不存在。不管用任何一种技术手段,我们要实现让数字人具有一定的自我。目前尝试在一些小领域里去做,比如只针对购物、银行门口的接待员是否可以?我们需要的是一个体系,很遗憾目前还不存在一个完备的体系能支持工业开发。
Founder Park:目前超写实数字人主要落地在哪些行业?
翁冬冬:目前比较成熟的领域是虚拟偶像、虚拟主持、主播等,视频行业要生产视频、网剧、短剧,对数字人的需求都在快速增加,数字人的价值逐渐被资本和行业认可,包括代言或营销方面的需求也非常多。数字人生产内容有很多天然的好处:可控性强、生产效率高、稳定性高等。从生产力的角度这些行业一定会使用数字人,随着数字人越来越像真人,成本越来越低,替代真人的地方也会越来越多。
数字人可能落地的行业 | 来源:数字栩生
实际上我们做的不只是超写实,最重要一点是和 AI 结合在一起,有智力、能互动、能解决问题。在重复性的对于智能要求没那么高,又一定要以人的形象出现的场合,也逐渐开始使用数字人,比如数字客服、数字讲解员、数字销售,甚至是简单的数字法律顾问。
还有就是社交相关,老龄化的社会谁来陪伴这些老人,年轻人的数量比老人还少,可以通过一些信息化的手段和技术,在一定程度上解决这个问题。另一个重要的应用场景是数字伴侣,数字人的形象,通过 AI 加持,以 VR 的形式或全息的形式进行数字陪伴。最重要的是数字人有真人无法弥补的优点,有特别多的时间专门陪你。再加上他收集了你从出生到现在所有的购物记录和上网记录,可以说是世界上最了解你的人,这样的人会陪伴在身边,最重要的是他可以实时监控你的心理和生理的健康状态。
Founder Park:数字栩生目前和哪些公司有较多的合作?主要落地场景有哪些?
翁冬冬:从合作角度来讲,大概分为三类。
第一类是渠道合作伙伴,要给客户提供非常完整的闭环服务。目前我们的定位是更垂直的数字人供应商。有很多渠道的合作伙伴,他们更直面客户的需求,蓝标也好,其他合作的企业也好,这些企业可以整体解决客户对于营销方面,包括 IP 方面的一些问题,我们则提供完整的技术解决方案。
另一类是比如英伟达或者虚幻引擎,一起合作尝试进一步解决技术问题。虽然我们是技术公司,但也不是说所有的技术都是自己做,也会集成和整合,大家一起尝试做更多的新的技术和尝试。
第三类是探索新的落地场景,我们和微软有在合作,针对 500 强企业,尝试数字人在法律场景下会不会有新的应用,这些合作伙伴手里有大量的传统的客户,他们都有信息化升级和改造的需求,但需要有足够资深的服务商提供定制化的全新的解决方案,这些全新的解决方案未来可能就是一种产品线。
对我们来说,一部分是我们正在做的业务,尽可能拓展、夯实,服务更多客户,同时也在探索数字人在不同领域的可能性。
Founder Park:目前数字人面临哪些可能的新挑战?
翁冬冬:目前国内的知识产权中,数字人还有专属的类别。它不是软件,因为只是数据集,那么只能按照作品版权进行处理,相关的版权上会有一些争议。
但是现在的社会是一个审美趋同的社会,制作数字人又都是工业流程生产的,很有可能不同的两家公司制作出来的数字人特别像,也很难区分到底谁借鉴了谁。行业内正在制定相关的标准,我们也在和一些合作伙伴推动去建立一些关于数字人的法律条款。
*以上嘉宾观点不代表 Founder Park 立场,也不构成任何投资建议。
公司:数字栩生
领域:数字人、虚拟人、元宇宙
融资状态:天使轮数千万人民币
主要投资人:联想创投、蓝图创投、蔚领时代、中科汇联
数字栩生联合创始人 & CTO,北京理工大学光电学院研究员、博士生导师及中央戏剧学院博士联合导师。其创办企业——数字栩生以「智能数字人服务制造和运营」为服务核心,致力于在超写实数字人领域提供优质的全栈式解决方案,并通过形象银行、数字内容生产制造与运营、数字人云平台打造系列服务矩阵。
成立于 2021 年,团队来自北理工、中科院自动化所、中央戏剧学院高精尖中心等科研机构,集合了光学、图形学与计算机科学等各领域人才。公司成立之前,团队已经在高校探索高逼真数字人的采集与 AI 驱动近 5 年时间,形成了完整自主知识产权的数字人解决方案技术体系,沉淀了丰富的技术实力。
更多科技创业者的采访,欢迎在小宇宙或者苹果播客收听我们的播客节目「Founder 100」。