圈内深聊:虚拟人的过去、当下与未来
今天开启公众号新的一个系列:圈内深聊,这个系列核心就是通过采访行业内一线的创业者和投资人,探寻出行业最真实的一手信息和洞察。这个系列不追求对错,但力求真实和深度,鼓励受访者说出最真实的行业洞见,然后让一切留给时间去检验。
虚拟人和元宇宙是当下最引人瞩目的热点之一,特别是在传统To C消费互联网日渐式微的当下,人们都在期待一个新的平台级机会,而作为VR/AR技术具体应用场景呈现的元宇宙和伴随而生的虚拟人也自然成为了大家竞相追逐的对象。但虚拟人这个概念其实已经有数十年的历史了,今天邀请了火凤资本的投资副总裁李佳超和理灵文化的联合创始人钱泽林,分别从投资人和创业者的角度来聊一聊虚拟人的过去、当下与未来。
01.
投资人
Q:您怎么看虚拟人这个赛道?
A:我觉得是一个大势所趋,因为这个赛道自身会有一些优势,看具体怎么使用在什么场景,比如拿虚拟偶像来说,传统你需要有一个真人的偶像,那就有很大的不确定性,对品牌来讲这就是个不稳定因素,不够保险。如果用虚拟偶像就可以解决这个问题,再比如说做这个电商,用数字人来做这个虚拟主播带货,那解决的就是一个效率问题,传统的真人他不可能 24 小时在那一直播个不停,但是虚拟人可以。
另外一方面大家可能会觉得传统真人主播千篇一律,没有什么创新。但是虚拟主播是个新事物,你可以带一些好玩和有趣的东西。这就涉及到IP形象这个概念,这个IP形象跟虚拟偶像是相关联的,你可能还能带一波IP自有的粉丝进来。所以就是各有利弊,各有不同的应用场景,有不同的好处。
Q:您会对虚拟人这个赛道的公司做个什么样的分类吗?
A:会差不多分成3类,第一类是虚拟偶像,就是把原来传统的真人偶像变成一个数字人的偶像。这类公司追求的方向是高画质,虚拟人得像真人,业内称之为超写实。这一类超写实的虚拟人技术上会要求比较高,有很多不同的技术公司在尝试去做,这方面其实也有很成熟的解决方案。但总体而言成本会比较高,造价比较贵。这一类公司的商业模式以接品牌代言、做一些联名推广活动和直播打赏为主
第二类是提供直播带货服务的公司,这一类对数字人本身的画质或者是技术要求就没那么高,更多是偏带货为目的。对虚拟人本身要求就不是很高,不用像偶像类的那样超写实,可以有多种风格,比如偏二次元的也可以,偏卡通的风格也可以,因此成本就会低很多。
最后一类是AI方向做底层技术,针对通用人工智能的虚拟人,前面的两类更多是真人,通过动捕或者是录好的一段东西换一个形象,但AI方向的公司则是用AIGC的方式来产生内容,比如说什么话和做出什么样的表情。当然现在也只是在一个尝试阶段,等这个 AI 能够做得比较成熟,这里面又会涉及到很多不同的方向,比如说情感陪伴:针对老年人或者是小朋友在家里比较孤单,没有人陪伴。然后一些客服,以前可能只是文字的对话式AI,现在大家也在尝试加上一个虚拟人的形象来更加有趣生动。
Q:您刚刚有提到虚拟人用到的技术这块,您觉得现在整个技术发展到一个怎么样的阶段了呢?
A:这里面可能会涉及到几块的技术。第一个是虚拟人形象,我觉得目前视觉形象已经没问题了,就是用3D建模。这个技术是比较成熟了,你只要找到会建模的人,做一个 3D超写实的虚拟人,考量得只是时间和成本的问题。当然这还涉及到审美的问题,能不能让大家都觉得好看。更进一步主要是怎么动起来的问题,这就需要用到前面讲的真人动作捕捉,有人在幕后,通过机器去捕捉他的动作、说话的表情和口型然后来反映到这个虚拟人上。这个技术如果是单纯的动捕也是比较成熟的,只不过说不同的人他的形象和风格,能不能表现得更自然一点。如果只是带货,虚拟人只要能动,能有互动,大家觉得能吸引眼球,把这个注意力转化成下单,给商家带来实际效果就可以了。
所以我觉得技术上都问题不大了,基本上都解决跑通了。下一个突破点就在于AI的方向上,以后不需要真人动捕了,完全可以自动,那这个就比较难了,短期也很难突破。因为涉及到AGI这块,同时有不同的场景,不同的对话效果怎么样?这个是当下技术上在尝试突破的一种方向,目前也有一些简单的场景能用起来,但还没有到那么好的效果。
Q:从您投资人的角度去看一家虚拟人的公司,您会看哪几方面,有什么样的壁垒吗?
A:我觉得首先也要分行业,就像上面提到的有不同类型的公司。如果是虚拟偶像就是超写实的,那壁垒我觉得这里面有两块,一块还是技术,通常这些做超写实虚拟人的公司又分两种,一种是他自己没有技术,他的技术都是外包的,那这一类公司的核心壁垒就是你能不能把这个虚拟偶像运营好。因为理论上大家都可以去找技术方,花差不多的钱,但是你能把它打造,运营得好,就会有大量的品牌愿意跟你合作。所以这就不是一个技术问题,更多是运营和造星的能力,以及策划的能力,然后包装的能力,这些是核心的点。另外一类是做技术的,那看的就是这个技术能不能把成本降低,效果更好,也就是降本增效。如果你是纯技术提供方,还得看客户愿不愿意为你买单。因为你最终一个技术还是要落到商业化上的。
如果是电商直播带货类的虚拟主播,那可能又稍微有点不一样。因为技术上大家都差不多,然后看他的这个占位是什么?如果他的占位是提供SaaS工具,那就看客户获取能力怎么样,市场能力怎么样,有多少人在用这个SaaS工具。如果是说是提供代运营服务,那就看服务效果了,看客户的复购率如何。
Q:从您角度来看,刚刚那几类公司,您会更看好哪一类或者投资哪一类公司呀?
A:这个不同的投资人会有不同的价值判断,但重要的因素就是在某个时间点,能够以某个合理的价格投进去是最重要的,因为投资人追求的是未来产生的最大回报。我个人觉得虚拟人包括元宇宙现在还是行业早期阶段,比较难下结论,每个赛道都有跑出独角兽的机会。
Q:您还有什么想分享的吗?
A:还有一点想分享的就是大家都在讲这个元宇宙,不管做NFT也好,或者是做游戏也好,这个最终大家都在讲一个元宇宙的概念。所以虚拟人也一样,这个事其实已经谈了很久了,但是现在落地的场景其实还是比较少的,就前面讲的那些。如果说未来有真正大量的落地场景其实就是这个元宇宙中的一些产品应用,这些应用都需要有一个自己的这个虚拟人,这就跟刚刚讲得当下的虚拟人商业逻辑不同,这可能更多是一个ToC的东西。这个里面又会有很多想象空间,你假设这个未来是个元宇宙的时代,每个人进去都会需要一个数字分身,你会需要有一个Avatar,这个就会有不同的风格和不同的展现形式。所以在虚拟人和元宇宙未来相结合的方面,我觉得还是有很大想象空间的。
02.
创业者
Q:你们作为创业者,如何从宏观和微观层面来看待虚拟人这个赛道?
A:从宏观的角度讲,虚拟人这个行业其实是属于新瓶装旧酒的概念,只是因为其行业壁垒比较高,导致行业外的人很容易误以为这个是个黑科技,但如果我们从CG行业切入,其实虚拟人只是个人物资产环节,早在20年前这个环节的大部分技术都已经非常成熟。
从微观的角度讲,目前在赛道内拿到融资的企业基本上可以分为两类企业,概念融合类和工具类。
概念融合类就是把AIGC和虚拟人这两个概念融合在一块,但其竞争力本质其实是AIGC而非虚拟人,因为不管有没有虚拟人,这个AI都可以完成拼接画作和自然做出回答,换一个虚拟人的皮,或者换一个虚拟宠物,甚至一把虚拟椅子,这件事情的结果不会有任何变化。同样的国外虚拟人巨头Soul Machine 给沃尔玛做的收银员,其实收费过程用传统的触屏UI或者NLP对话都可以直接解决,无非就是让客人觉得稍微自然一点。
第二类是做工具类的企业,很多本质上是在海外现有开源代码和引擎的上面写个应用层,当然有极少数的几家是从底层开始写的,但实在太少了也太难了。为什么呢,因为标准和生态已经被建立了,生态中有几百万开发者源源不断给它们做贡献,并且已经迭代了20年,然后一家公司突然跳出来说他以一家企业的力量颠覆他们。这就好比一家创业公司说他要写个OS颠覆安卓和苹果生态,当然我们很期待这样的产品,只是我们作为业内的生产者,在实际的应用角度还没见到过。
Q:虚拟人制作方面主要会涉及到哪些技术?实现手段是怎样的呢?目前存在哪些难点吗?
A:简单的讲下CG人物的制作流程,基本上是美术、建模、材质、绑定、Layout、动画、灯光、特效、渲染和后期,这是所有CG动画公司的基本功。然后我看到的讲降本增效的故事基本上围绕在建模,动捕,渲染,云协作这些点上。
但现在降本增效的工具在技术上其实也是很成熟的应用了,打比方从快速人脸建模和测量摄影,五分钟钟创建数字孪生之类的。这个技术叫做测量摄影,早在1999年,大卫芬奇就在电影中引用了这个技术,用CG重构了整个厨房。本质逻辑就是用相机环绕拍摄物体的每一个角度,再倒入生成算法。从物品到真人到场景到一切都可以实现快速建模,要节省成本的玩法就是用多台相机拼成一个现在这个技术已经非常成熟,Github上有开源算法,世面上能够找到几十款成熟的商业软件,比如Character Creator 3、UE的Metahuman、MakeHuman、MB-Lab、Daz3D、Blender的ManuelbastioniLab等。你只要再买几十台相机就可以拥有一个数字孪生速成平台。即便你不会任何代码,也可以通过网上大量的手把手教学视频快速上手。
第二个讲动捕技术链吧,这个很多公司现在都在讲RGB单摄像头动捕,本质是逐帧去做人体骨骼匹配,市面上有大量开源代码可以使用
OpenPose(https://github.com/CMU-Perceptual-Computing-Lab/openpose)
EasyMocap(https://github.com/zju3dv/EasyMocap)
FrankMocap(https://github.com/facebookresearch/frankmocap)
MocapNET(https://github.com/FORTH-ModelBasedTracker/MocapNET)
现成工具有:The FreeMoCap Project,plask.ai,move.ai,pixcap,Kinetix,RADiCAL,DeepMotion和AiMocap。
但其实大部分的RGB摄像头的动捕是无法完成高精度和影视级动捕的,不管是惯性动捕还是光学动捕,对于环境都有苛刻的要求,最终还是要回归到Vicon或者Optitrack等软硬件一体的系统,并且拥有动捕棚子。
渲染引擎方面,现在市面上主流的离线渲染方案非常多,从阿诺德,RS,再到MAYA自带的Vray,以及Blender自带的渲染器,实时的有虚幻引擎系列和Unity等,以及我们非常敬佩的国产渲染器Grit之类的。虚拟人主要基于虚幻引擎和Unity的实时渲染,虚幻引擎5本身的渲染水平已经非常高。作为从业者来说,目前我们还没见过超越虚幻5的实时渲染器。
顺便分享一下虚幻5自带的像素流送功能,可以一分钟创建云端元宇宙。
Q:你们觉得目前虚拟人搭建工具的挑战会在哪里?
A:工具搭建的核心问题是在于大家都在讲降本增效的故事,但是没有讲满足要求的故事。因为做优质的内容所需要的东西需要的不是快,而是对和好。打比方比如说速成一个虚拟人,我如果从素材商店里面买素材买一个模型下载下来只要30秒,比用速成扫描工具更快。你找个模型师是捏个一般的模型几小时也能出来,但是一个好看耐看的脸是需要在非常苛刻的审美监督下来回修改来回打磨,这才是成本所在,速成从来不需要任何成本。如何能够将创作者的要求和审美更有效地转化成数字资产可能是更实在的需求。
事实上在过去的几十年里,国外的生态巨头诸如blender,UE和Unity等等,他们正在朝着这个方向一路狂奔,比如Metahuman。但即便是Metahuman,目前离完成实际的创作需求还是差之千里,所以暂时还无法脱离画、雕和刻这些传统的制作形式。与其一秒速成一个简单的模型,如何让画、雕和刻这种传统制作形式通过工具变得更加高效才是能否带来本质上降本增效的关键。
Q:你们认为虚拟人在当下有着怎样的商业价值?
A:我们认为,虚拟人的价值最终还是要回归到皮上,比较标准的两个应用场景是Avatar(数字分身)和Vtuber(虚拟偶像)。
Avatar毋庸置疑是最大的应用场景,但是从中国互联网企业的环境生态去思考这个问题,觉得这件事情要达成非常非常的困难。首先做Avatar的公司是否能打包一起做元宇宙,还是将自己的Avatar系统应用于其他公司的元宇宙?如果是,那么第一个现象级元宇宙应用在哪里?如果只做Avatar的技术供应商,那么一个依赖于平台入口的基建应用,到底能够独立多久?做Avatar最大的价值毋庸置疑在于数据,如果放弃数据,那么就是一家纯粹的工具公司,但是纯粹的Avatar工具公司存在多少商业价值?
第二种皮的应用价值就是做虚拟偶像,本质是承接观众的喜欢。包括目前大部分2B向的虚拟人的最终目的还是在于To B方相信虚拟人能够为为其吸引更多的年轻人,只是他们未必能实现。但是已经有实现的案例,并且是市场最主流的案例,比如Vtuber,彩虹社,Asoul这些,实实在在地实现了粉丝经济,并且产生了粘性。
Q:你们在尝试和探索哪些方面呢?
A:理灵认为,虚拟人的归宿必然是内容。从之前的对话其实你可以看出,不管是SaaS还是Avatar都是理灵研究过的方向,但最终,我们推导出未来的方向应该是内容。可以类比思考一下,我们去剧院的时候为什么不在舞台上纯粹看一个人,而要看他表演?吸引观众来看的本身应该是内容,人只是内容的一种载体。更何况,人的长相是天生的,但虚拟人的长相是后天打磨出来的,是可以选择并且优化的。
我们认为现在的行业大家都在往制作虚拟人和开发制作工具,目标是想做淘金浪潮中卖水的人,但是还没想好这人造出来目的是在哪。而我们则想直接做淘金人,往最终结果去努力。
Q:为什么会想到探索这方面?这背后的底层逻辑是什么?有什么深入的洞察吗?
A:虚拟人的本质是皮,而皮就应该为内核服务。论工具内核,皮或许可以提供一些亲和感,毕竟和人说话比和按屏幕自然。论内容内核,其实是提供被喜欢的价值。这种价值只存在于内容而非工具,大家可以问一下自己,会喜欢银行柜台中的虚拟人吗?你会喜欢Siri吗?你不会。但是你会喜欢初音未来,你会喜欢Asoul这些虚拟偶像。
但是要是实现 "被喜欢", 其实是最难的,绝非单纯的技术、制作、内容或者运营任何一方可以单一解决的,必须实现全栈式一体化。很多企业都认为自己能做到,但事实上至今为止,中国只出过《原神》一个全球化现象级IP。这家十年前无人问津的公司,在今日代表着中国IP征战全世界,大家喜欢把他归结为技术,这肯定没错,但我还是想引用一句米哈游CEO大伟哥在Clubhouse上说的话:"其实外界把我们定义为二次元游戏公司,但是不管内部是蔡浩宇也好,是我也好,还是我们其他同学,我们自己不怎么看,我们更喜欢用另外一个词语来形容我们,我们就说,我们做的是内容游戏,内容游戏是一个什么样的感觉呢,本质上他跟美剧是一样的。"当我听到这句话的时候我是非常开心的,因为这也是我们的理念,从理灵创建之初我们就重注内容,而我们发现我们并不孤独。当然我们也非常注重技术,只是觉得拿现有技术还不够,因为所有优秀的技术,都会需要最后在内容上呈现,不需要说观众们也会明白。
总结一下就是:与其把虚拟人看作为一个新的概念,不如把虚拟人看作传统的娱乐内容的一种新载体,一种比电影和游戏更加灵活和亲和的载体。
Q:你们现在针对这方面做了哪些尝试吗?
A:如一开始所讲,做IP是一件需要具备多重能力才能完成的事情,所以我们把做IP这件事情,拆分成了几件事情,并且正在逐一进行击破。
先讲运营层面吧,因为这个是投资人最关心的:你怎么保证你的IP火?万一你东西做出来了别人不喜欢怎么办?
那么这个其实看的是运营能力,理灵正在尝试的是拿着最差的同质化内容和最差的技术去测试我们的获粉能力和获粉成本。目前数据出奇的理想,经过4个月的运营,测试账号-梦珑拌饭已经在B站超过了10万粉丝,粉丝日增长率达到3%,粉丝活跃率达到90%,互动率超过30%。这是一个非常夸张的数据,并且大家都知道账号运营的早期是最慢的,之后梦珑的增速应该会有指数级增长。同时我们也深刻地意识到了创作、运营、制作一体化的重要性,因为只有一体化,才能将市场的反馈快速传达至创作端和制作端,从而实现快速迭代。
在创作方面的话比起说有一个优秀的作品,我们认为拥有一个能持续产出优秀作品的团队更为重要。我们在创立之初就立志要做一个中国本土史无前例的内容创作团队,我们很大程度的采用了网飞文化,尽可能给创作者更多的创作空间,同时特别关注人才密度。这背后的逻辑的是这样的,理灵特别注重内容上的一个特性,就我们的优质内容应该是在同行(全球)中没被见过的东西。完成这件事情的本质是把所有的内容模块进行排列组合,需要天量的认知和人生经验进行有效的排列组合来试错,这件事情或许未来可以用AI来完成,但是暂时我们还没看到可以挑战人类的可能性,因为人生之复杂,感受维度之繁多。如果要用人来完成这件事情,那么人才密度同时决定了这背后的数据量和沟通效率。当然我们也一直为此在迭代一个优秀的创作流程。同样我们也将企业制度完全用于适配创作流程,因为我们相信高效的沟通和大方的认知的输出尤为重要,在理灵内部管理结构和人际关系都非常扁平,我们特别鼓励大家发声讨论。有时候一部作品可能需要耗尽一个创作者一生的积累,而在理灵我们希望他能获得来自四面八方的支援。
Q:你们对未来一段时间的规划是什么?
A:我们对未来的规划很简单:核心把IP做好,然后拿IP变现,但知易行难,我认为讲问题比将计划更重要,理灵看到的问题,大部分投过IP的投资人也都看到了,那么我们也正在解决这些问题。
比如投资人关心的:你这个虚拟人账号做起来了,以后有商业价值吗?吃礼礼物和广告吗?
我觉得这里有一个很核心的认知差异,IP和内容输出者的差异,好比明星和网红的差异。传统创作者的核心思路是"整活",所谓"整活"是用个体输出有意思的内容,所以用户的核心关注点其实是内容,其价值的产生必须绑定源源不断的内容输出,基本上每次更新和输出内容才有新的变现可能。
那么理灵想走的路其实是立IP,不同于整活,我们所有的内容创作更大程度是为了给我们的虚拟人创造舞台,建立人设,回归到最终目的是让我们的虚拟人被喜欢。立起IP之后,其IP的商业价值和初音未来,Re:0雷姆之类一致。那时候边际成本几乎为0。
以及长期来说,怎么保证理灵能够保持足够的创作力,能持续的创造拥有热度的IP。对于近期我们不担心,理灵主要由Y世代和Z世代成员组成,我们既是创作者又是受众本身,我们很清楚我们自己想要看什么东西。第二,我们正在利用虚拟人的一大优势建立自己的数据驱动体系,虚拟人和传统IP的核心差别是灵活、高频和高粘性,而这种三种特性导致我们和我们粉丝的距离非常近,他们对于什么喜欢以及什么不喜欢,我们都可以在第一时间得知。这可以很大程度地增强理灵在创作时对市场风险的把控能力,但是如果虚拟人都是靠烧钱硬推,IP实际上不存在什么粉丝粘稠力和内容延续性的话,以上所有也无从谈起。同时我们现在也在积极寻找消费行业头部KA进行合作,并且已经跟某头部上市公司达成了数百万的第一笔合作,拥有了比较健康的可持续现金流。
结尾
以上就是本期圈内深聊的全部内容了,之后深思圈会带来更多行业投资人和创业者的访谈和洞见,帮助大家看到最真实的行业现状与动态。
欢迎关注深思圈,一起探索更大的世界。
- END -
往期文章